Avatar Forcing: Генерація інтерактивних головних аватарів у реальному часі для природної розмови
Автори: Ki Taekyung, Junho Kim, Hyeonsu Lee, Hyewon Son, Jonghyun Choi
Опубліковано: 2026-01-02
Переглянути на arXiv →Анотація
Ця стаття представляє Avatar Forcing, нову дифузійно-керовану структуру, яка дозволяє генерувати інтерактивні головні аватари в реальному часі для природної розмови. Вона вирішує проблеми генерації руху в реальному часі за причинно-наслідкових обмежень та навчання виразних реакцій без додаткових розмічених даних. Структура обробляє мультимодальні вхідні дані з низькою затримкою (приблизно 500 мс) та генерує реактивні, виразні рухи аватарів, перевершуючи базові системи в оцінках користувачів з понад 80% перевагою. Це має значний потенціал для віртуальної комунікації, розваг та взаємодії людини з комп'ютером.