Agent57: Outperforming the Atari Human Benchmark

Atari57 в последние несколько лет является, наверно, одним из самых популярных наборов сред для обучения с подкреплением, сочетая в себе большое количество разнообразных задач для проверки качества алгоритмов. Большинство алгоритмов обучения с подкреплением успешно превосходят людей в большей части из этих игр, однако до настоящего момента ни один из алгоритмов не мог показывать стабильно высокие результаты во всех играх из представленных. На семинаре мы рассмотрим статью с алгоритмом Agent57, который стаб

2 views