TimeLens: Переосмислення тимчасового прив'язування відео за допомогою мультимодальних LLM
Автори: Jun Zhang, Teng Wang, Yuying Ge, Yixiao Ge, Xinhao Li, Ying Shan, Limin Wang
Опубліковано: 2025-12-17
Переглянути на arXiv →Анотація
TimeLens пропонує новий метод тимчасової прив'язки відео, використовуючи багатомодальні великі мовні моделі (LLM). Це дослідження покращує здатність ШІ розуміти та знаходити конкретні події у довгих відео на основі запитів природною мовою, що має значні наслідки для аналізу відеоконтенту, спостереження та взаємодії людини з комп'ютером у реальних сценаріях.