Той самий вміст, різні відповіді: крос-модальна непослідовність у MLLM
Автори: Angela van Sprang, Laurens Samson, Ana Lucic, Erman Acar, Sennay Ghebreab, Yuki M. Asano
Опубліковано: 2025-12-10
Переглянути на arXiv →Анотація
Ця стаття присвячена критичній проблемі багатомодальних великих мовних моделей (MLLM), які видають непослідовні або різні відповіді при представленні однієї й тієї ж інформації через різні вхідні модальності, підкреслюючи ключову проблему для надійних реальних застосувань.
Вплив
practical
коментарів
5
Теми
7
💡 Просте пояснення
Уявіть, що ви показуєте ШІ фотографію дощової вулиці і запитуєте: 'Чи безпечно їхати?' Він відповідає 'Ні'. Потім ви пишете текстове повідомлення тому ж ШІ, ідеально описуючи фото: 'Вулиця з сильною зливою та калюжами'. ШІ читає це і каже: 'Так, продовжуйте рух з обережністю'. Ця стаття досліджує таку заплутану поведінку. Вона виявляє, що передові моделі ШІ часто дають різні відповіді залежно від того, чи дивляться вони на зображення, чи читають опис цього зображення. Ця 'неузгодженість' є проблемою для створення надійних систем ШІ.
🎯 Постановка проблеми
Мультимодальним великим мовним моделям (MLLM) бракує семантичного вирівнювання між їхніми шляхами обробки візуальної та текстової інформації. Навіть якщо модель розуміє концепцію в тексті, вона може не застосувати це розуміння при візуальному сприйнятті тієї ж концепції, що призводить до непередбачуваної та ненадійної поведінки в реальних застосуваннях.
🔬 Методологія
Автори створили еталонний набір даних, що містить пари зображення-питання. Потім вони використали метод 'Оракула' (високоякісне створення підписів/OCR) для перетворення зображень у детальний текст. Сучасні MLLM отримували запити із зображенням+питанням та текстом+питанням окремо. Вихідні дані порівнювалися за допомогою систематичної метрики під назвою Перехресна модальна узгодженість (CMC), використовуючи LLM для оцінки семантичної еквівалентності між двома відповідями.
📊 Результати
Дослідження демонструє, що навіть моделі найвищого рівня, такі як GPT-4V та Gemini, демонструють помітну перехресну модальну неузгодженість. У багатьох випадках текстова модальність (куди подаються описи) перевершує пряму візуальну модальність у завданнях на міркування. Показники узгодженості (CMC) значно падають зі зростанням складності завдання, показуючи, що візуальні енкодери та мовні магістралі не ідеально синхронізовані у своєму латентному просторі міркувань.
✨ Ключові висновки
1. Не припускайте, що MLLM є узгодженими між модальностями; правильні текстові міркування не гарантують правильних візуальних міркувань. 2. Доповнення текстом (використання підписів) може підвищити надійність. 3. Потрібні нові парадигми навчання, які карають за розбіжності між модальностями, щоб створити справді надійних мультимодальних агентів.
🔍 Критичний аналіз
Ця стаття забезпечує необхідну перевірку реальності для галузі MLLM. У той час як останні досягнення були зосереджені на можливостях (чи може вона бачити?), ця стаття справедливо зміщує акцент на надійність (чи можемо ми довіряти тому, що вона бачить?). Методологія є обґрунтованою, хоча покладання на текстові описи як проксі для 'правильного' змісту зображення є невеликим обмеженням, оскільки описи втрачають частину інформації. Однак відкриття того, що моделі є внутрішньо неузгодженими, є вагомим індикатором того, що поточне 'візуальне інструктивне налаштування' є недостатнім для справжнього мультимодального заземлення.
💰 Практичне застосування
- B2B API-обгортка, що гарантує мультимодальну узгодженість для корпоративного використання.
- Інструменти аудиту для перевірки відповідності моделей ШІ регуляторним нормам.
- Маркетплейс наборів даних для 'складних негативів узгодженості' для покращення навчання моделей.