Про час: Безапеляційне навчання з підкріпленням з машинами винагород з часовими обмеженнями
Автори: Anirban Majumdar, Ritam Raha, Rajarshi Roy, David Parker, Marta Kwiatkowska
Опубліковано: 2025-12-22
Переглянути на arXiv →Анотація
Ця стаття представляє безапеляційний підхід до навчання з підкріпленням, який включає машини винагород з часовими обмеженнями для обробки часових властивостей у складних середовищах. Шляхом явного інтегрування часових обмежень у структуру винагород, система може вивчати оптимальні політики для завдань, що вимагають точної часової послідовності, що є вирішальним для застосувань у робототехніці, автоматизованих системах керування та оптимізації процесів, де дотримання конкретних часових рамок є важливим для успішної роботи.