XSkill: Безперервне навчання на основі досвіду та навичок у мультимодальних агентах
У цій статті представлено XSkill, двопотокову систему, яка дозволяє мультимодальним агентам безперервно навчатися на основі візуально обґрунтованих навичок рівня завдань та досвіду рівня дій без явного перенавчання. Цей підхід покращує продуктивність агента шляхом підвищення ефективності та гнучкості використання інструментів.
cs.AI
Читати Аналіз →Про інформаційне самоблокування в навчанні з підкріпленням для активного міркування агентів LLM
Ця стаття досліджує феномен "інформаційного самоблокування" в навчанні з підкріпленням для активного міркування в агентах великих мовних моделей (LLM). Вона досліджує, як агенти LLM можуть застрягати в субоптимальних циклах міркувань, і пропонує методи подолання цих обмежень для покращення активного міркування.
cs.AI
Читати Аналіз →Дослідження великих мовних моделей, що діють як судді, у неперевірюваному постнавчанні LLM
Це дослідження вивчає використання великих мовних моделей (LLM) з функцією міркування як суддів для оцінки інших LLM під час постнавчання в неперевірюваних сферах, досліджуючи їх ефективність, практичний вплив та потенційні підводні камені у складних, суб'єктивних завданнях.
cs.AI
Читати Аналіз →Проспективне клінічне дослідження здійсненності розмовної діагностичної ШІ в амбулаторній клініці первинної медичної допомоги
У цій статті представлено проспективне клінічне дослідження здійсненності розмовної ШІ на основі великих мовних моделей (Amy) в умовах реальної амбулаторної первинної медичної допомоги. Дослідження оцінює діагностичні можливості Amy, плани лікування та задоволеність користувачів, виявляючи високий рівень безпеки та прийняття, незважаючи на те, що лікарі-люди мають перевагу в практичності та економічній ефективності планів лікування. Це важливий крок до ширшого клінічного застосування.
cs.AI
Читати Аналіз →Надійна та ефективна багатоагентна система навчання з підкріпленням для керування світлофорами
Ця стаття пропонує надійну багатоагентну систему навчання з підкріпленням (MARL) для керування світлофорами, перевірену в симуляторі дорожнього руху Vissim. Вона вирішує проблеми узагальнення за допомогою адаптивного представлення стану, нової функції винагороди та протоколу зв'язку між агентами. Система демонструє чудову продуктивність у різних сценаріях дорожнього руху.
cs.AI
Читати Аналіз →Чи може навчання з підкріпленням покращити узагальнення агентів LLM? Емпіричне дослідження
Це емпіричне дослідження з'ясовує, чи може навчання з підкріпленням (RL) покращити можливості узагальнення агентів великих мовних моделей (LLM). Дослідження вивчає різні методи RL та їх вплив на продуктивність агентів LLM у різноманітних та невидимих завданнях.
cs.AI
Читати Аналіз →OpenClaw-RL: Навчайте будь-якого агента просто розмовляючи
Ця платформа перетворює сигнали "наступного стану" в реальному часі від взаємодій агентів ШІ на безперервні джерела онлайн-навчання. Вона відновлює як неявні оціночні, так і явні директивні сигнали, дозволяючи агентам досягати швидкої персоналізації в розмовних середовищах та покращувати продуктивність у різноманітних загальних агентних завданнях, таких як термінал, GUI, SWE та середовища виклику інструментів. Це дозволяє агентам покращуватися просто завдяки їх використанню, адаптуючись до повторних запитів користувачів, виправлень та явного зворотного зв'язку.
cs.AI✓ AI
Читати Аналіз →Високоавтономні кібер-здатні агенти: Передбачення можливостей, тактик та стратегічних наслідків
Цей звіт представляє "Високоавтономних кібер-здатних агентів" (HACCAs) – системи ШІ, здатні автономно проводити багатоетапні кіберкампанії, порівнянні з провідними хакерськими групами. Він визначає HACCAs, прогнозує їхню появу, ідентифікує п'ять основних операційних тактик (наприклад, автономне налаштування інфраструктури, уникнення виявлення) та аналізує стратегічні наслідки, такі як посилення міждержавної кіберконкуренції та розповсюдження наступальних можливостей. Він також вказує на ризики, такі як ненавмисна кібер-ядерна ескалація та стійка втрата контролю, пропонуючи рекомендації щодо політики.
cs.AI
Читати Аналіз →Персоналізоване федеративне навчання за схемою "мало для багатьох"
Ця стаття вирішує проблеми масштабованості в персоналізованому федеративному навчанні (PFL) для гетерогенних розподілів даних, переформулюючи PFL як проблему оптимізації "мало для багатьох". Вона підтримує невелику кількість спільних серверних моделей (K << M клієнтів), щоб колективно обслуговувати всіх клієнтів, а не M окремих моделей. Запропонований алгоритм, FedFew, автоматично знаходить оптимальну різноманітність моделей за допомогою ефективних градієнтно-орієнтованих оновлень, досягаючи майже оптимальної персоналізації та перевершуючи найсучасніші підходи лише з 3 моделями на наборах даних візуалізації, NLP та медичних зображень.
cs.AI
Читати Аналіз →