Занятие №15 «Обучение с подкреплением»

Пятнадцатое занятие на курсе «Нейронные сети и их применение в научных исследованиях» для группы НС213. Преподаватель: Илья Дюгай 0:00 Обучение с учителем 2:13 Терминология: агент, функция награды, состояние среды 9:55 Отличие от supervised learning 10:58 Классические примеры задач RL 12:08 Особенности и сложности RL. 26:38 Состояние среды (State) 29:00 Markov property 31:01 Markov process 33:51 Награда (Reward) 36:00 Суммарная награда (Return) 39:33 Марковский процесс принятия решений 50:11 Уравнение Беллмана 58:13 Gym 1:02:24 Нахождение лучшей последовательности переходов 1:04:55 Нахождение оптимальной политики Беллмана 1:16:04 Q - Learning 1:28:22 Exploration vs exploitation 1:36:15 Deep Q-Learning 1:39:08 Loss 1:40:39 Алгоритм обучения 1:55:22 TD-Loss 1:56:59 Пример c CartPole DQN 2:09:08 Дальнейшие идеи Официальный сайт: Инстаграм:

17 views