Реализация PyTorch Elastic Learning в ML Space

Технический лидер по машинному обучению ML Space Алексей Климов выступил на конференции DataStart 2022, где рассказал про платформу ML Space, сценарии использования распределенного и эластичного обучения, экосистему PyTorch и поделился конкретными техническими рекомендациями по способам решения распределенных задач. Тайм-коды: 00:00 — Введение, рассказ про Cloud и ML Space 05:10 — Типы сценариев использования мощностей 08:45 — Что такое DataHub 09:49 — Распределенное обучение, проблемы при использовании 15:48 — Фреймворки нейросетей, развитие и экосистем PyTorch 24:00 — Способы запуска distributed задач, примеры 28:53 — Способы запуска elastic distributed задач, примеры 32:14 — Живой пример, как происходит запуск elastic distributed задачи 36:40 — Требования для старта в распределенном обучении 38:15 — Cоветы перед использованием Torch Elastic на Kubernetes 40:35 — Запуск PyTorch Elastic training на ML Space Environments 43:30 — Вопросы и ответы Наш Телеграм канал:
Back to Top