PhaseCoder: агностичне до геометрії мікрофона просторове аудіорозуміння для мультимодальних LLM

Автори: Artem Dementyev, Wazeer Zulfikar, Sinan Hersek, Pascal Getreuer, Anurag Kumar, Vivek Kumar

Опубліковано: 2026-01-26

Переглянути на arXiv →
#cs.AI

Анотація

Ця стаття представляє PhaseCoder, кодер просторового аудіо, що базується виключно на трансформерах, який працює незалежно від геометрії мікрофона. Він обробляє необроблені багатоканальні аудіодані та координати мікрофона для виконання локалізації та генерації надійних просторових вбудувань. Це дозволяє мультимодальним великим мовним моделям (LLM) виконувати складні просторові міркування та цілеспрямовану транскрипцію з різних мікрофонних масивів.

PhaseCoder: агностичне до геометрії мікрофона просторове аудіорозуміння для мультимодальних LLM

Автори: Artem Dementyev, Wazeer Zulfikar, Sinan Hersek, Pascal Getreuer, Anurag Kumar, Vivek Kumar

Опубліковано: 2026-01-26

Переглянути на arXiv →
#cs.AI

Анотація

Ця стаття представляє PhaseCoder, кодер просторового аудіо, що базується виключно на трансформерах, який працює незалежно від геометрії мікрофона. Він обробляє необроблені багатоканальні аудіодані та координати мікрофона для виконання локалізації та генерації надійних просторових вбудувань. Це дозволяє мультимодальним великим мовним моделям (LLM) виконувати складні просторові міркування та цілеспрямовану транскрипцію з різних мікрофонних масивів.

FEEDBACK

Проекти

Немає проектів

PhaseCoder: агностичне до геометрії мікрофона просторове аудіорозуміння для мультимодальних LLM | ArXiv Intelligence