Про час: Безапеляційне навчання з підкріпленням з машинами винагород з часовими обмеженнями

Автори: Anirban Majumdar, Ritam Raha, Rajarshi Roy, David Parker, Marta Kwiatkowska

Опубліковано: 2025-12-22

#cs.AI

Анотація

Ця стаття представляє безапеляційний підхід до навчання з підкріпленням, який включає машини винагород з часовими обмеженнями для обробки часових властивостей у складних середовищах. Шляхом явного інтегрування часових обмежень у структуру винагород, система може вивчати оптимальні політики для завдань, що вимагають точної часової послідовності, що є вирішальним для застосувань у робототехніці, автоматизованих системах керування та оптимізації процесів, де дотримання конкретних часових рамок є важливим для успішної роботи.

Про час: Безапеляційне навчання з підкріпленням з машинами винагород з часовими обмеженнями

Автори: Anirban Majumdar, Ritam Raha, Rajarshi Roy, David Parker, Marta Kwiatkowska

Опубліковано: 2025-12-22

Переглянути на arXiv →

#cs.AI

Анотація

FEEDBACK

Проекти

Немає проектів