Munchausen Reinforcement Learning

Одной из основных частей многих алгоритмов обучения с подкреплением является бутстрапинг. В частности, большинство алгоритмов использующих TD-error для обучения вместо истинного значение Q-function или Value function используют их существующие приближение. Авторы статьи Munchausen Reinforcement Learning предлагают использовать для бутстрапинга в алгоритмах RL не только текущее приближение суммарной награды, но и текущую политику агента. Такой подход позволяет значительно улучшить DQN и IQN благодаря незнач

6 views