Как наши кластеры оказались в топе суперкомпьютеров

Из доклада вы узнаете краткую историю кластеров для обучения нейронных сетей в Яндексе: — Зачем они нам понадобились? — Что такое современный HPC и почему это не просто объединение нескольких сотен серверов? — Способы создания HPC и почему Яндекс выбрал наиболее трудный. Поговорим о борьбе за производительность: — Почему такие кластеры, как у нас, не работают «из коробки»? — Как мы оптимизировали производительность одного узла от 30 TFlops до 110 TFlops. — Как мы масштабировали производительность на 200 узлов, получив в сумме 21.6 PFlops. Также мы подробно расскажем о том, что представляет из себя распределённое обучение, и почему это сложно; и поделимся 10 правилами, без которых GPU-кластеры никогда не окупятся и будут просто дорогой игрушкой.

36 views

365