DRL Course | Policy Gradient

Курс Deep Reinforcement Learning: Сезон курсов: В шестой лекции: Рассматриваются MDP с бесконечным пространством действий; Обсуждается Policy Gradient теорема; Выводятся алгоритмы Reinforce, A2C и DDPG Наши соц.сети: Telegram: Вконтакте:
Back to Top