Всі Наукові Статті

XSkill: Безперервне навчання на основі досвіду та навичок у мультимодальних агентах

У цій статті представлено XSkill, двопотокову систему, яка дозволяє мультимодальним агентам безперервно навчатися на основі візуально обґрунтованих навичок рівня завдань та досвіду рівня дій без явного перенавчання. Цей підхід покращує продуктивність агента шляхом підвищення ефективності та гнучкості використання інструментів.

cs.AI

XSkill: Безперервне навчання на основі досвіду та навичок у мультимодальних агентах

Про інформаційне самоблокування в навчанні з підкріпленням для активного міркування агентів LLM

Дослідження великих мовних моделей, що діють як судді, у неперевірюваному постнавчанні LLM

Проспективне клінічне дослідження здійсненності розмовної діагностичної ШІ в амбулаторній клініці первинної медичної допомоги

Надійна та ефективна багатоагентна система навчання з підкріпленням для керування світлофорами

Чи може навчання з підкріпленням покращити узагальнення агентів LLM? Емпіричне дослідження

OpenClaw-RL: Навчайте будь-якого агента просто розмовляючи

Високоавтономні кібер-здатні агенти: Передбачення можливостей, тактик та стратегічних наслідків

Персоналізоване федеративне навчання за схемою "мало для багатьох"

Ψ 0 Ψ_0 Ψ0: Відкрита фундаментальна модель для універсальної локомоції людиноподібних роботів

Коли OpenClaw зустрічає лікарню: До створення агентної операційної системи для динамічних клінічних робочих процесів

DIVE: Масштабування різноманітності в синтезі агентних завдань для узагальнюваного використання інструментів

TinyVLM: Детекція об'єктів з нульовим пострілом на мікроконтролерах за допомогою візуально-мовної дистиляції з вбудовуваннями типу «матрьошка»

До оцінки азоту на пшеничних полях на основі даних за допомогою мультиспектральних зображень

Виявлення прихованих повторів: пам'ятно-ефективне безперервне виявлення об'єктів на мікроконтролерах за допомогою адаптивної до завдань компресії

OmniStream: Оволодіння сприйняттям, реконструкцією та діями в безперервних потоках

EVATok: Токенізація відео адаптивної довжини для ефективної візуальної авторегресійної генерації

GRADE: Бенчмаркінг обґрунтованого міркування в редагуванні зображень

Автоматизована перевірка якості анотацій даних датчиків

Розуміння LoRA як пам'яті знань: Емпіричний аналіз

Багатоджерельний, багатоагентний пошук доказів для перевірки фактів

Навчання, коли діяти чи відмовлятися: Захист агентних моделей міркування для безпечного багатоетапного використання інструментів

За межами виконання завдань: Виявлення помилкових успіхів у агентах LLM за допомогою оцінки, що враховує процедури

Адаптивна регуляризація впевненості для багатомодального виявлення збоїв

CUDA Agent: Масштабна агентна RL для генерації високопродуктивних ядер CUDA

SeeThrough3D: Контроль 3D із урахуванням оклюзії у генерації тексту в зображення

SWE-MiniSandbox: Безконтейнерне навчання з підкріпленням для створення агентів програмної інженерії

Узгодження моделей через прив'язку

MHDash: Онлайн-платформа для бенчмаркінгу помічників ШІ, що враховують психічне здоров'я

Анатомія агентної пам'яті: таксономія та емпіричний аналіз оцінки та системних обмежень