Фундаментальна модель одноклітинних систем, доповнена знаннями відкритого світу, з надійним крос-модальним попереднім навчанням клітинно-мовних зв'язків

Автори: Haoran Wang, Xuanyi Zhang, Shuangsang Fang, Longke Ran, Ziqing Deng, Yong Zhang, Yuxiang Li, Shaoshuai Li

Опубліковано: 2026-01-09

Переглянути на arXiv →
#cs.AI

Анотація

Нещодавні досягнення в одноклітинній мультиоміці надають глибокі знання про клітинну гетерогенність. Ця робота пропонує OKR-CELL, надійну одноклітинну фундаментальну модель, доповнену мовними знаннями відкритого світу. Вона використовує великі мовні моделі (LLM) з генерацією, доповненою пошуком, для збагачення текстових описів клітин, використовуючи знання відкритого світу, і розробляє об'єктив для надійного крос-модального вирівнювання, щоб підвищити стійкість моделі до зашумлених даних. Після попереднього навчання на 32 мільйонах пар клітина-текст, OKR-CELL досягає передових результатів у 6 завданнях оцінки, включаючи кластеризацію клітин, анотацію типів клітин, корекцію пакетних ефектів, анотацію з невеликою кількістю прикладів, анотацію типів клітин з нульовою кількістю прикладів та двонаправлений пошук клітина-текст.