Call2Instruct: Автоматизований конвеєр для генерації наборів даних питань та відповідей з записів кол-центрів для тонкого налаштування LLM

Автори: Alex Echeverria, Sávio Salvarino Teles de Oliveira, Fernando Marques Federson

Опубліковано: 2026-01-20

Переглянути на arXiv →
#cs.AI

Анотація

Конкретні домени залежать від високоякісних наборів даних для тонкого налаштування, особливо в навчальному форматі (наприклад, питання-відповідь - Q&A). Однак генерація цих наборів даних, особливо з неструктурованих джерел, таких як аудіозаписи кол-центрів, становить значний виклик. Ця стаття представляє наскрізний автоматизований конвеєр для генерації навчальних наборів даних Q&A з таких записів, що включає обробку аудіо, текстову обробку, семантичне вилучення та зіставлення за допомогою семантичного пошуку. Практична цінність була продемонстрована успішним тонким налаштуванням моделі LLM, що підкреслює її потенціал для створення більш ефективних систем ШІ для завдань Q&A в обслуговуванні клієнтів.

Call2Instruct: Автоматизований конвеєр для генерації наборів даних питань та відповідей з записів кол-центрів для тонкого налаштування LLM | ArXiv Intelligence