Скінченно-станні контролери для (прихованих моделей) POMDP за допомогою глибокого навчання з підкріпленням
Автори: David Hudák, Maris F. L. Galesloot, Martin Tappler, Martin Kurečka, Nils Jansen, Milan Češka
Опубліковано: 2026-02-10
Переглянути на arXiv →Анотація
Це дослідження представляє метод розробки кінцево-станових контролерів для частково спостережуваних марковських процесів прийняття рішень (POMDP) за допомогою глибокого навчання з підкріпленням. Цей підхід є критично важливим для створення автономних агентів, які можуть приймати оптимальні рішення в середовищах, де доступна лише часткова інформація, з застосуваннями в робототехніці, автономній навігації та інтелектуальних системах управління.