Всі Наукові Статті

Переглядайте 500 дослідницьких статей

XSkill: Безперервне навчання на основі досвіду та навичок у мультимодальних агентах

У цій статті представлено XSkill, двопотокову систему, яка дозволяє мультимодальним агентам безперервно навчатися на основі візуально обґрунтованих навичок рівня завдань та досвіду рівня дій без явного перенавчання. Цей підхід покращує продуктивність агента шляхом підвищення ефективності та гнучкості використання інструментів.

cs.AI
Читати далі

Про інформаційне самоблокування в навчанні з підкріпленням для активного міркування агентів LLM

Ця стаття досліджує феномен "інформаційного самоблокування" в навчанні з підкріпленням для активного міркування в агентах великих мовних моделей (LLM). Вона досліджує, як агенти LLM можуть застрягати в субоптимальних циклах міркувань, і пропонує методи подолання цих обмежень для покращення активного міркування.

cs.AI
Читати далі

Дослідження великих мовних моделей, що діють як судді, у неперевірюваному постнавчанні LLM

Це дослідження вивчає використання великих мовних моделей (LLM) з функцією міркування як суддів для оцінки інших LLM під час постнавчання в неперевірюваних сферах, досліджуючи їх ефективність, практичний вплив та потенційні підводні камені у складних, суб'єктивних завданнях.

cs.AI
Читати далі

Проспективне клінічне дослідження здійсненності розмовної діагностичної ШІ в амбулаторній клініці первинної медичної допомоги

У цій статті представлено проспективне клінічне дослідження здійсненності розмовної ШІ на основі великих мовних моделей (Amy) в умовах реальної амбулаторної первинної медичної допомоги. Дослідження оцінює діагностичні можливості Amy, плани лікування та задоволеність користувачів, виявляючи високий рівень безпеки та прийняття, незважаючи на те, що лікарі-люди мають перевагу в практичності та економічній ефективності планів лікування. Це важливий крок до ширшого клінічного застосування.

cs.AI
Читати далі

Надійна та ефективна багатоагентна система навчання з підкріпленням для керування світлофорами

Ця стаття пропонує надійну багатоагентну систему навчання з підкріпленням (MARL) для керування світлофорами, перевірену в симуляторі дорожнього руху Vissim. Вона вирішує проблеми узагальнення за допомогою адаптивного представлення стану, нової функції винагороди та протоколу зв'язку між агентами. Система демонструє чудову продуктивність у різних сценаріях дорожнього руху.

cs.AI
Читати далі

Чи може навчання з підкріпленням покращити узагальнення агентів LLM? Емпіричне дослідження

Це емпіричне дослідження з'ясовує, чи може навчання з підкріпленням (RL) покращити можливості узагальнення агентів великих мовних моделей (LLM). Дослідження вивчає різні методи RL та їх вплив на продуктивність агентів LLM у різноманітних та невидимих завданнях.

cs.AI
Читати далі

OpenClaw-RL: Навчайте будь-якого агента просто розмовляючи

Ця платформа перетворює сигнали "наступного стану" в реальному часі від взаємодій агентів ШІ на безперервні джерела онлайн-навчання. Вона відновлює як неявні оціночні, так і явні директивні сигнали, дозволяючи агентам досягати швидкої персоналізації в розмовних середовищах та покращувати продуктивність у різноманітних загальних агентних завданнях, таких як термінал, GUI, SWE та середовища виклику інструментів. Це дозволяє агентам покращуватися просто завдяки їх використанню, адаптуючись до повторних запитів користувачів, виправлень та явного зворотного зв'язку.

cs.AI✓ AI аналіз
Читати далі

Високоавтономні кібер-здатні агенти: Передбачення можливостей, тактик та стратегічних наслідків

Цей звіт представляє "Високоавтономних кібер-здатних агентів" (HACCAs) – системи ШІ, здатні автономно проводити багатоетапні кіберкампанії, порівнянні з провідними хакерськими групами. Він визначає HACCAs, прогнозує їхню появу, ідентифікує п'ять основних операційних тактик (наприклад, автономне налаштування інфраструктури, уникнення виявлення) та аналізує стратегічні наслідки, такі як посилення міждержавної кіберконкуренції та розповсюдження наступальних можливостей. Він також вказує на ризики, такі як ненавмисна кібер-ядерна ескалація та стійка втрата контролю, пропонуючи рекомендації щодо політики.

cs.AI
Читати далі

Персоналізоване федеративне навчання за схемою "мало для багатьох"

Ця стаття вирішує проблеми масштабованості в персоналізованому федеративному навчанні (PFL) для гетерогенних розподілів даних, переформулюючи PFL як проблему оптимізації "мало для багатьох". Вона підтримує невелику кількість спільних серверних моделей (K << M клієнтів), щоб колективно обслуговувати всіх клієнтів, а не M окремих моделей. Запропонований алгоритм, FedFew, автоматично знаходить оптимальну різноманітність моделей за допомогою ефективних градієнтно-орієнтованих оновлень, досягаючи майже оптимальної персоналізації та перевершуючи найсучасніші підходи лише з 3 моделями на наборах даних візуалізації, NLP та медичних зображень.

cs.AI
Читати далі

Ψ 0 Ψ_0 Ψ0: Відкрита фундаментальна модель для універсальної локомоції людиноподібних роботів

Ця стаття представляє відкриту фундаментальну модель для універсальної локомоції та маніпуляції людиноподібних роботів. Вона використовує розділену стратегію навчання, яка спочатку попередньо навчається на екоцентричних відео людини для отримання узагальнюваних візуально-активних уявлень, а потім донавчається на значно меншій кількості даних робота для точного керування суглобами. Цей підхід досягає понад 40% вищого рівня успіху у складних, довгострокових завданнях порівняно з передовими базовими моделями та демонструє покращену ефективність даних, відкриваючи шлях до більш здібних людиноподібних роботів.

cs.AI
Читати далі

Коли OpenClaw зустрічає лікарню: До створення агентної операційної системи для динамічних клінічних робочих процесів

Ця робота пропонує архітектуру, яка адаптує агентів LLM для лікарняних середовищ, щоб значно покращити клінічні робочі процеси. Вона вирішує обмеження надійності, безпеки та довгострокової пам’яті шляхом впровадження обмеженого середовища виконання, парадигми взаємодії, орієнтованої на документи, архітектури пам’яті з індексацією сторінок та кураторної бібліотеки медичних навичок. Система становить основу агентної операційної системи для лікарні, здатної координувати клінічні робочі процеси з безпекою, прозорістю та можливістю аудиту.

cs.AI
Читати далі

DIVE: Масштабування різноманітності в синтезі агентних завдань для узагальнюваного використання інструментів

Недавні дослідження синтезують агентні завдання для LLM, що використовують інструменти після навчання, проте надійна узагальнюваність при зміні завдань та наборів інструментів залишається відкритою проблемою. Ця крихкість пов'язана з недостатньою різноманітністю синтезованих завдань. У статті пропонується DIVE, рецепт, керований доказами, який інвертує порядок синтезу, спочатку виконуючи різноманітні, реальні інструменти та зворотно виводячи завдання, що строго випливають з отриманих слідів. Цей метод значно покращує узагальнюваність використання інструментів і перевершує масштабування за кількістю для узагальнення поза розподілом, навіть з 4-кратним зменшенням даних.

cs.AI
Читати далі

TinyVLM: Детекція об'єктів з нульовим пострілом на мікроконтролерах за допомогою візуально-мовної дистиляції з вбудовуваннями типу «матрьошка»

TinyVLM забезпечує детекцію об'єктів з нульовим пострілом безпосередньо на мікроконтролерах за допомогою дистиляції зір-мовної моделі з вбудовуваннями типу «матрьошка». Це значно розширює межі периферійного ШІ, дозволяючи потужні можливості візуального розпізнавання на пристроях з дуже обмеженими ресурсами для IoT та вбудованих застосувань.

cs.CV
Читати далі

До оцінки азоту на пшеничних полях на основі даних за допомогою мультиспектральних зображень

Це дослідження вивчає підхід, заснований на даних, для оцінки рівня азоту на пшеничних полях за допомогою мультиспектральних зображень. Це має пряме практичне застосування в точному землеробстві, дозволяючи оптимізувати внесення добрив, підвищити врожайність та зменшити вплив на навколишнє середовище.

cs.CV
Читати далі

Виявлення прихованих повторів: пам'ятно-ефективне безперервне виявлення об'єктів на мікроконтролерах за допомогою адаптивної до завдань компресії

Ця стаття представляє Latent Replay Detection, пам'ятно-ефективний підхід для безперервного виявлення об'єктів на мікроконтролерах. Він використовує компресію, адаптовану до завдань, щоб пом'якшити катастрофічне забування, що є вирішальним для розгортання адаптивних систем ШІ на периферійних пристроях, які навчаються з часом.

cs.CV
Читати далі

OmniStream: Оволодіння сприйняттям, реконструкцією та діями в безперервних потоках

OmniStream представляє уніфіковану структуру для сприйняття в реальному часі, 3D-реконструкції та планування дій у безперервних потоках даних. Цей підхід є критично важливим для втіленого ШІ та робототехніки, дозволяючи агентам розуміти динамічні середовища та взаємодіяти з ними злагоджено та ефективно.

cs.CV
Читати далі

EVATok: Токенізація відео адаптивної довжини для ефективної візуальної авторегресійної генерації

Ця стаття пропонує EVATok, новий метод токенізації відео адаптивної довжини, розроблений для ефективної візуальної авторегресійної генерації. Він спрямований на підвищення ефективності моделей генерації відео шляхом динамічного регулювання довжини токенів, що призводить до кращої продуктивності та зменшення обчислювальних витрат, що особливо корисно для високоякісного синтезу та редагування відео. Ця робота була прийнята CVPR 2026.

cs.CV
Читати далі

GRADE: Бенчмаркінг обґрунтованого міркування в редагуванні зображень

Ця стаття представляє GRADE, еталон для оцінки обґрунтованого міркування в редагуванні зображень. Він надає структуровану основу для оцінки того, наскільки добре моделі ШІ розуміють і застосовують правила конкретної предметної області під час маніпуляцій із зображеннями, що має життєво важливе значення для професійних художніх та дизайнерських застосувань.

cs.CV
Читати далі

Автоматизована перевірка якості анотацій даних датчиків

Ця стаття пропонує автоматизований метод перевірки якості анотацій даних датчиків, що є критично важливим компонентом для навчання надійних моделей машинного навчання в автономних системах. Забезпечення високоякісних анотацій є життєво важливим для безпеки та продуктивності застосувань ШІ в безпілотних автомобілях, робототехніці та спостереженні.

cs.CV
Читати далі

Розуміння LoRA як пам'яті знань: Емпіричний аналіз

Безперервне оновлення знань для попередньо навчених великих мовних моделей (LLM) стає все більш необхідним, але залишається складним завданням. Хоча методи під час висновку, такі як навчання в контексті (ICL) та генерація з доповненим пошуком (RAG), є популярними, вони стикаються з обмеженнями щодо контекстних бюджетів, витрат та фрагментації пошуку. Відходячи від цих контекстно-залежних парадигм, ця робота досліджує параметричний підхід, використовуючи низькорангову адаптацію (LoRA) як модульну пам'ять знань. Хоча деякі недавні роботи досліджують цю концепцію, фундаментальні механізми, що керують її ємністю та композиційністю, залишаються значною мірою недослідженими. Ми заповнюємо цю прогалину за допомогою першого систематичного емпіричного дослідження, що відображає простір дизайну пам'яті на основі LoRA, від характеристики ємності зберігання та оптимізації інтерналізації до масштабування багатомодульних систем та оцінки міркувань у довгому контексті. Замість того, щоб пропонувати єдину архітектуру, ми надаємо практичні рекомендації щодо операційних меж пам'яті LoRA. Загалом, наші висновки позиціонують LoRA як додаткову вісь пам'яті поряд з RAG та ICL, пропонуючи чіткі переваги.

cs.AI
Читати далі

Багатоджерельний, багатоагентний пошук доказів для перевірки фактів

Поширення дезінформації в Інтернеті становить значну загрозу як для суспільств, так і для окремих осіб, вимагаючи надійної та масштабованої перевірки фактів, яка спирається на пошук точних і достовірних доказів. Попередні методи покладаються на семантичні та соціально-контекстуальні патерни, отримані з навчальних даних, що обмежує їх узагальнення для нових розподілів даних. Нещодавно було запропоновано методи, засновані на генерації з доповненим пошуком (RAG), для використання можливостей міркування великих мовних моделей (LLM) з отриманими документами, що обґрунтовують інформацію.

cs.AI
Читати далі

Навчання, коли діяти чи відмовлятися: Захист агентних моделей міркування для безпечного багатоетапного використання інструментів

Агентні моделі міркування, які використовують зовнішні інструменти для виконання багатоетапних завдань, мають величезний потенціал, але також створюють нові виклики безпеці. Критично важливим аспектом їхнього безпечного розгортання є здатність інтелектуально вирішувати, коли діяти, а коли відмовлятися від дії, особливо коли вони стикаються з невизначеними або потенційно шкідливими результатами використання інструментів. Ця стаття пропонує новий фреймворк для захисту агентних моделей міркування шляхом їх явного навчання політикам відмови. Наш підхід інтегрує модуль оцінки впевненості та механізм відмови безпосередньо в цикл прийняття рішень агента. Модуль впевненості оцінює надійність згенерованих викликів інструментів та проміжних етапів міркування, тоді як механізм відмови запускає безпечний запасний варіант (наприклад, звернення за допомогою людини або перепланування), якщо впевненість падає нижче встановленого порогу. Завдяки широким експериментам на різних бенчмарках використання інструментів, що включають веб-навігацію, виклики API та виконання коду, ми демонструємо, що наш захищений агент значно покращує безпеку та надійність, зменшуючи шкідливі дії та помилкове використання інструментів до 70% при збереженні високих показників виконання завдань. Ця робота є важливим кроком до створення більш надійних та контрольованих агентних систем ШІ для реальних застосувань.

cs.AI
Читати далі

За межами виконання завдань: Виявлення помилкових успіхів у агентах LLM за допомогою оцінки, що враховує процедури

Агенти, засновані на великих мовних моделях (LLM), все частіше застосовуються у відповідальних сферах, але сучасні бенчмарки оцінюють переважно те, чи було виконано завдання, а не те, як. Ми представляємо оцінку, що враховує процедури (PAE) — фреймворк, який формалізує процедури агентів як структуровані спостереження та виявляє зв'язки узгодженості між тим, що агенти спостерігають, комунікують та виконують. PAE оцінює агентів за взаємодоповнюючими осями (корисність, ефективність, якість взаємодії, цілісність процедур) та застосовує багатовимірне відсіювання, яке категорично дискваліфікує помилкові результати. Оцінка найсучасніших агентів LLM на tau-bench дає результати на рівнях осі, відповідності та бенчмарку. На рівні осі виміри фіксують ненадлишкові режими відмов: корисність маскує прогалини в надійності, швидкість не означає точність, а стислість не передбачає дотримання намірів. На рівні процедурної відповідності 27-78% успіхів, зафіксованих бенчмарком, є помилковими успіхами, що приховують порушення взаємодії та цілісності. Крім того, відсіювання суттєво зменшує показник Pass^4 та впливає на рейтинги моделей. Аналіз випадків помилкових успіхів виявляє відмінні сигнатури відмов для кожної моделі: GPT-5 поширює помилки по вимірах політики, виконання та наміру; Kimi-K2-Thinking концентрує 78% порушень у вірності та відповідності політики; а Mistral-Large-3 домінують відмови у вірності. На рівні бенчмарку наш аналіз виявляє структурні недоліки в дизайні бенчмарку, включаючи прогалини в обсязі завдань, суперечливі сигнали винагороди та артефакти симулятора, які призводять до випадкових успіхів.

cs.AI
Читати далі

Адаптивна регуляризація впевненості для багатомодального виявлення збоїв

Розгортання багатомодальних моделей у відповідальних сферах, таких як безпілотні автомобілі та медична діагностика, вимагає не лише високої прогностичної продуктивності, але й надійних механізмів виявлення збоїв. У цій роботі ми розглядаємо значною мірою недосліджену проблему виявлення збоїв у багатомодальних контекстах. Ми пропонуємо адаптивну регуляризацію впевненості (ACR), новий фреймворк, спеціально розроблений для виявлення багатомодальних збоїв. Наш підхід базується на ключовому спостереженні: у більшості випадків збоїв, впевненість у багатомодальному прогнозуванні повинна бути вищою, коли всі модальності узгоджуються, і нижчою, коли вони не узгоджуються. ACR явно моделює цю невідповідність, вивчаючи оцінку впевненості, яка регуляризує багатомодальне прогнозування. Наші експерименти демонструють, що ACR значно покращує продуктивність виявлення збоїв у різних багатомодальних завданнях та наборах даних, особливо у складних реальних сценаріях із зашумленими та неповними даними.

cs.AI
Читати далі

CUDA Agent: Масштабна агентна RL для генерації високопродуктивних ядер CUDA

Оптимізація ядер графічних процесорів (GPU) є фундаментальною для сучасного глибокого навчання, але залишається вузькоспеціалізованим завданням, що вимагає глибоких знань апаратного забезпечення. Незважаючи на високу продуктивність у загальному програмуванні, великі мовні моделі (LLM) залишаються неконкурентоспроможними порівняно з компіляторними системами, такими як torch.compile, для генерації ядер CUDA. Існуючі підходи до генерації коду CUDA або покладаються на безтренувальне уточнення, або донавчають моделі в рамках фіксованих багатоетапних циклів "виконання-зворотний зв'язок", але обидві парадигми не спроможні докорінно покращити внутрішню здатність моделі до оптимізації CUDA, що призводить до обмеженого зростання продуктивності. Ми представляємо CUDA Agent, масштабну агентну систему навчання з підкріпленням, яка розвиває експертизу в ядрах CUDA за допомогою трьох компонентів: масштабованого конвеєра синтезу даних, середовища розробки CUDA, доповненого навичками, з автоматизованою верифікацією та профілюванням для забезпечення надійних сигналів винагороди, а також алгоритмічних методів навчання з підкріпленням, що забезпечують стабільне навчання. CUDA Agent досягає найсучасніших результатів на KernelBench, забезпечуючи швидкість на 100%, 100% та 92% вищу, ніж torch.compile, на розділах KernelBench Level-1, Level-2 та Level-3, перевершуючи найпотужніші пропрієтарні моделі, такі як Claude Opus 4.5 та Gemini 3 Pro, приблизно на 40% у найскладнішому налаштуванні Level-3.

cs.AI
Читати далі

SeeThrough3D: Контроль 3D із урахуванням оклюзії у генерації тексту в зображення

Це дослідження представляє SeeThrough3D, новаторський метод генерації тексту в зображення, що включає 3D-контроль із урахуванням оклюзії. Він дозволяє більш точне та реалістичне синтезування зображень шляхом розуміння та маніпулювання об'єктами в тривимірному просторі, навіть коли вони частково приховані. Це досягнення має значні наслідки для віртуальної реальності, створення контенту та дизайнерської індустрії.

cs.AI
Читати далі

SWE-MiniSandbox: Безконтейнерне навчання з підкріпленням для створення агентів програмної інженерії

У статті SWE-MiniSandbox представлено нове середовище навчання з підкріпленням без контейнерів, розроблене для розробки та тестування агентів програмної інженерії. Цей пісочниця полегшує ефективне навчання та оцінку агентів ШІ, здатних автоматизувати різні завдання розробки програмного забезпечення, від генерації коду до виправлення помилок, без накладних витрат на контейнеризацію.

cs.AI
Читати далі

Узгодження моделей через прив'язку

Ця стаття представляє новий підхід до досягнення узгодженості між різними моделями ШІ за допомогою техніки, що називається прив'язкою. Вона досліджує, як прив'язка може підвищити надійність багатомодельних систем, пропонуючи новий погляд на ансамблеве навчання та покращуючи прийняття рішень у складних додатках ШІ. Цей метод має потенційні застосування в областях, що вимагають перевірки важливих рішень.

cs.AI
Читати далі

MHDash: Онлайн-платформа для бенчмаркінгу помічників ШІ, що враховують психічне здоров'я

Ця стаття представляє MHDash, нову онлайн-платформу, спеціально розроблену для бенчмаркінгу помічників ШІ, що враховують психічне здоров'я. Вона надає стандартизовані показники та набори даних для оцінки ефективності, емпатії та безпеки інструментів ШІ у підтримці психічного благополуччя, відкриваючи шлях до більш відповідальних та корисних застосувань ШІ в охороні здоров'я.

cs.AI
Читати далі

Анатомія агентної пам'яті: таксономія та емпіричний аналіз оцінки та системних обмежень

Ця стаття заглиблюється в структуру та функцію "агентної пам'яті" в системах ШІ, пропонуючи комплексну таксономію та емпіричний аналіз її оцінки та притаманних обмежень. Розуміння агентної пам'яті має вирішальне значення для розробки більш інтелектуальних та адаптивних агентів ШІ, здатних виконувати складні завдання та довгострокові взаємодії в динамічних середовищах.

cs.AI
Читати далі