PhaseCoder: агностичне до геометрії мікрофона просторове аудіорозуміння для мультимодальних LLM
Автори: Artem Dementyev, Wazeer Zulfikar, Sinan Hersek, Pascal Getreuer, Anurag Kumar, Vivek Kumar
Опубліковано: 2026-01-26
Переглянути на arXiv →Анотація
Ця стаття представляє PhaseCoder, кодер просторового аудіо, що базується виключно на трансформерах, який працює незалежно від геометрії мікрофона. Він обробляє необроблені багатоканальні аудіодані та координати мікрофона для виконання локалізації та генерації надійних просторових вбудувань. Це дозволяє мультимодальним великим мовним моделям (LLM) виконувати складні просторові міркування та цілеспрямовану транскрипцію з різних мікрофонних масивів.