CodeVision: Фреймворк «код як інструмент» для мультимодальних великих мовних моделей

Автори: Wang Kai, Zhu Ling, Chen Hao

Опубліковано: 2025-12-04

Переглянути на arXiv →
#cs.AI

Анотація

Дослідники з Чжецзянського університету та ByteDance представили CodeVision, фреймворк «код як інструмент», який оснащує мультимодальні великі мовні моделі (MLLM) для програмної взаємодії із зображеннями. Цей підхід значно покращує стійкість MLLM шляхом виправлення поширених пошкоджень зображень та дозволяє використовувати найсучасніші багатоінструментальні міркування за допомогою використання нових інструментів та відновлення після помилок.

CodeVision: Фреймворк «код як інструмент» для мультимодальних великих мовних моделей

Автори: Wang Kai, Zhu Ling, Chen Hao

Опубліковано: 2025-12-04

Переглянути на arXiv →
#cs.AI

Анотація

Дослідники з Чжецзянського університету та ByteDance представили CodeVision, фреймворк «код як інструмент», який оснащує мультимодальні великі мовні моделі (MLLM) для програмної взаємодії із зображеннями. Цей підхід значно покращує стійкість MLLM шляхом виправлення поширених пошкоджень зображень та дозволяє використовувати найсучасніші багатоінструментальні міркування за допомогою використання нових інструментів та відновлення після помилок.

FEEDBACK

Проекти

Немає проектів

CodeVision: Фреймворк «код як інструмент» для мультимодальних великих мовних моделей | ArXiv Intelligence