DataFrame API: от Dask к PySpark // Демо-занятие курса «MLOps»

Продолжение темы DataFrame API. Данные ещё умещаются на дисковый массив, но 16 ядер уже явно не хватает для быстрой обработки. Dask вновь готов помочь, предоставляя возможность для распределенных вычислений на нескольких узлах. И вот мы достигли апогея этой истории. Поддерживать отдельный Dask-кластер из такого большого числа узлов становится нерентабельным, и мы переезжаем в общий Spark-кластер. Но благодаря pandas API on Spark всё еще остаемся вместе с так полюбившимся нам многоликим зверьком. «MLOps» - Преподаватель: Павел Филонов - автор серии докладов про ML, С , управление DS проектами и развитии команды Подключайтесь к обсуждению в чате - Пройдите опрос по итогам мероприятия - Следите за новостями проекта: - Telegram: - ВКонтакте: - LinkedIn: - Хабр:

1 view

278