Масштабоване побудова графів знань з зашумленого тексту за допомогою великих мовних моделей
Автори: Dr. Anya Petrova, Prof. Serhii Kovalenko, Dr. Elena Vasylenko, Dmytro Kuzmenko, Olena Mykhailiuk
Опубліковано: 2025-12-22
Переглянути на arXiv →Анотація
Ця стаття представляє нову структуру для автоматичного побудови великомасштабних графів знань з неструктурованих, зашумлених текстових даних, використовуючи передові можливості великих мовних моделей. Вона розглядає виклики в розпізнаванні сутностей, вилученні відносин та злиття знань, демонструючи значні покращення в масштабованості та точності порівняно з попередніми методами, з чітким потенціалом для управління корпоративними даними та додатків семантичного пошуку.
Вплив
practical
Теми
6
💡 Просте пояснення
Уявіть, що ви намагаєтеся побудувати генеалогічне дерево зі скриньки з брудними, написаними від руки листами, залитими кавою. Традиційним комп'ютерам важко їх прочитати. Ця стаття пропонує новий метод із використанням передового ШІ (як ChatGPT), щоб спочатку 'очистити' цифровий текст, а потім суворо організувати інформацію в карту (Граф знань). Це допомагає компаніям перетворювати безладні електронні листи, чати та журнали на структуровані бази даних, до яких можна робити запити.
🎯 Постановка проблеми
Побудова точних графів знань зазвичай вимагає чистого, граматичного тексту. Дані реального світу (чати, вихідні дані OCR, журнали) є зашумленими. Існуючі методи або не можуть розібрати цей шум, або, при використанні LLM, страждають від 'галюцинацій', коли модель вигадує неправильні факти або правдоподібні, але помилкові зв'язки.
🔬 Методологія
Автори використовують багатоетапний конвеєр. По-перше, 'Адаптер шумозаглушення' (налаштована менша LLM) переписує зашумлені вхідні сегменти в канонічні форми. По-друге, система використовує 'Налаштування інструкцій з обмеженням схеми', змушуючи основну LLM вилучати сутності та зв'язки суворо відповідно до визначеної онтології. Нарешті, перевірка узгодженості на основі графа вирішує суперечливі триплети шляхом аналізу глобальної топології графа.
📊 Результати
Запропонований фреймворк досяг підвищення оцінки F1 на 15% на бенчмарку 'Noisy-RE' порівняно зі звичайним вилученням GPT-4. Рівень галюцинацій знизився на 22% завдяки модулю перевірки узгодженості. Тести на масштабованість показали лінійну часову складність відносно розміру вхідних даних, обробляючи 1 мільйон документів менш ніж за 4 години на стандартному кластері GPU.
✨ Ключові висновки
LLM можна ефективно приборкати для структурованого вилучення з брудного тексту, якщо обгорнути їх у суворий конвеєр шумозаглушення та валідації схеми. Гібридний підхід 'GenAI + Символьна логіка' (узгодженість графа) є шляхом вперед для надійного корпоративного ШІ.
🔍 Критичний аналіз
Стаття вирішує дуже реальну проблему — дані реального світу ніколи не бувають чистими. Однак покладання на LLM для 'шумозаглушення' може внести тонкі семантичні зрушення, які важко виявити. Заява про масштабованість є відносною; хоча це краще за ручну анотацію, вартість токенів для обробки терабайтів журналів все ще буде непомірною для багатьох компаній. Оцінку на 'зашумленому' тексті слід ретельно вивчити, щоб переконатися, що вона відображає справжній хаос реального світу (наприклад, помилки ASR, сленг), а не просто синтетичний шум.
💰 Практичне застосування
- Сервіс вилучення на основі API з оплатою за документ
- Корпоративне локальне розгортання для захищених даних
- Консалтинг щодо розробки користувацьких схем та маппінгу онтологій