Дмитрий Сошников — mPyPl: функциональный способ организовать обработку данных в Python

Ближайшая конференция: PiterPy 2023 — 6–7 ноября (Online), 13–14 ноября (Санкт-Петербург, Offline) Подробности: — — При подготовке данных для машинного обучения часто приходится совершать над данными серию преобразований, чтобы подготовить датасет для обучения. В докладе пойдет речь про небольшую библиотеку, которую разработали в группе Microsoft Commercial Software Engineering, и которая позволяет описывать обработку данных в виде единого конвейера именованными потоками данных. С помощью такой библиотеки удобно обрабатывать данные, которые слишком велики, чтобы поместиться в Pandas DataFrame, но слишком малы, чтобы использовать Spark/Databricks.
Back to Top