Занятие №15 «Обучение с подкреплением»

Пятнадцатое занятие на курсе «Нейронные сети и их применение в научных исследованиях» для группы НС224. Преподаватель: Александр Пославский 00:00:07:00 Обучение с учителем 00:01:16:21 Обучение без учителя 00:02:26:25 Обучение с подкреплением 00:03:28:24 Терминология: агент, функция награды, состояние среды 00:04:51:09 Отличие от supervised learning 00:07:46:14 Классические примеры задач RL 00:14:33:19 Особенности и сложности RL. Низкая скорость обучения (sample efficiency) 00:14:35:14 Низкая скорость обучения (sample efficiency) 00:17:02:10 Сложное проектирование функции награды 00:21:08:10 Невоспроизводимость обучения 00:22:59:08 Датасеты 00:23:13:24 Gym 00:25:27:03 Пространства действий и наблюдений 00:29:10:28 Взаимодействие со средой 00:29:56:13 Создание своей среды 00:42:42:21 Markov property 00:44:45:26 Markov process 00:50:08:11 Определение 00:50:12:23 Матрица состояний 00:50:39:14 Награда (Reward) 00:53:51:09 Суммарная награда (Return) 00:58:04:14 Дисконтирование (discounting) 01:04:31:29 Марковский процесс принятия решений 01:06:58:18 Формальное описание MDP 01:08:11:25 Пример 01:11:22:10 Нахождение лучшей последовательности переходов 01:13:10:20 Value function 01:15:12:21 Определение Value Function 01:15:33:05 Уравнение Беллмана 01:15:34:10 Определение Optimal Value Function 01:15:40:01 Bellman equation 01:17:47:09 Нахождение оптимальной политики Беллмана 01:17:50:13 Политика не обязана быть оптимальной 01:21:51:14 Policy iteration 01:27:19:02 Value Iteration 01:42:28:08 Temporal difference (TD) learning 01:44:54:25 Q-Learning 01:50:16:15 Deep Q-Learning 02:01:55:16 Loss 02:01:57:27 Approximate Q-learning 02:01:58:05 Алгоритм обучения 02:02:11:17 Experience replay 02:09:35:14 Terget network 02:12:42:01 Пример c CartPole DQN 02:13:53:28 Building a network 02:15:42:05 Experience Replay Buffer and Target Networks 02:15:53:22 TD-Loss 02:15:57:04 Main loop 02:20:06:24 Дальнейшие идеи 02:21:39:05 Другие улучшения DQN 02:22:42:10 Double DQN 02:23:59:09 Альтернативные подходы Ссылка на лекцию: VK: Telegram: Сайт:
Back to Top