Спортивный анализ данных - - метрики + решение соревнования по стоимости квартир

00:03 Обсуждение важности метрик для оценки качества моделей и выбора правильных метрик для решения задач. • Упоминание о том, что метрики могут быть использованы для отбора и подбора гиперпараметров, а также для выбора моделей. 07:28 Обсуждение двух основных метрик для регрессии: MSE (среднеквадратичная ошибка) и MAE (средняя абсолютная ошибка). • Упоминание о том, что MSE может быть функцией потерь для некоторых алгоритмов, а MAE - нет. • Обсуждение недостатков MSE и MAE, таких как отсутствие верхней границы и сложность сравнения моделей с разными таргетами. 11:36 Нормированные метрики • Обсуждение MapE (средняя ошибка в процентах) и SMapE (средняя ошибка в удвоенном модуле ошибки). • Упоминание о том, что эти метрики позволяют сравнивать разные модели и учитывать относительные величины ошибок. 14:23 Метрики для оценки качества предсказаний в задачах классификации и регрессии. • В регрессии используется метрика MSE (mean squared error), которая учитывает абсолютные ошибки предсказаний. • В классификации используются метрики точности (accuracy) и полноты (recall), которые учитывают только ошибки в предсказании одного из классов. 21:41 Примеры использования метрик • В примере с банком, где есть проблема дисбаланса классов, метрика точности может быть не самой эффективной, так как она может предсказывать только негативные классы. • В примере с медициной, где лекарство применяется к больным, а не здоровым, метрика полноты может быть более подходящей, так как она учитывает ошибки в предсказании только негативных классов. 29:59 Метрики для классификации • Видео обсуждает различные метрики для классификации, включая полноту, точность и F1-меру. • Полнота учитывает только количество правильно предсказанных объектов, в то время как точность учитывает только количество правильно предсказанных положительных объектов. • F1-мера является средним гармоническим между полнотой и точностью, и может быть использована для балансировки между этими метриками. 35:42 Использование метрик для многоклассовой классификации, где каждый класс имеет свою собственную полноту и точность. • Если классы не сбалансированы, можно использовать взвешенную F1-меру для учета дисбаланса между классами. 42:27 Использование вероятностной классификации, где объекты ранжируются по их вероятностям принадлежности к классам. • Это позволяет учитывать порядок следования объектов и их вероятностную принадлежность к классам. 46:04 Метрики классификации • Видео обсуждает различные метрики классификации, включая точность, полноту, F1-меру и логарифмическую потерю. • Логарифмическая потеря, также известная как кросс-энтропия, имеет некоторые особенности, такие как возможность работать с несколькими классами и способность штрафовать за ошибки. 51:51 Применение метрик • Метрики могут быть использованы для оценки моделей классификации, но их интерпретация может быть сложной. • В видео обсуждаются примеры использования метрик для анализа данных и определения ошибок в классификации. 55:25 Использование метрик в реальных задачах, например, для прогнозирования цен на основе признаков и макропризнаков. • Обсуждается важность использования метрик для оценки моделей и определения ошибок в реальных задачах. 01:01:23 Анализ данных и выбор фич • Автор анализирует данные о квартирах и выбирает важные параметры для анализа, такие как площадь, число комнат, материал и год постройки. • Он также учитывает возможные опечатки и ошибки в данных. 01:06:42 Обработка данных и кодирование для упрощения анализа данных и создания более точных результатов. • Он обучает кодировщик на трейне и применяет его на тесте для получения более точных результатов. 01:11:15 Разбиение данных на бины и обработка ошибок • Автор разбивает данные на бины по годам постройки и возрасту дома для более точного анализа. • Он также исправляет ошибки в данных, такие как пропуски и опечатки. 01:14:58 Применение результатов анализа на практике, заполнение пропусков и корректировки ошибок в данных. • Автор также использует полученные результаты для улучшения качества данных и повышения точности анализа. 01:16:50 Автор создает модель для прогнозирования цены квартиры, используя признаки, такие как этаж, число комнат, площадь комнаты, год постройки, качество материалов и другие. • Он также выделяет признаки, которые могут быть полезны для заполнения пропусков в данных, такие как число комнат, площадь одной комнаты и тип застройки. 01:23:33 Автор обучает две модели на данных, используя градиентный регрессор и подбирая параметры. • Он затем применяет обученную модель к тестовым данным, чтобы предсказать цену квадратного метра, а затем умножает результат на общую площадь квартиры, чтобы получить цену квартиры. 01:26:40 Автор анализирует важность признаков, используя коэффициент важности признаков. • Наиболее важными признаками оказываются число людей в регионе, площадь квартиры и возраст дома. • Автор также обсуждает, что можно было бы сделать лучше и где еще поэкспериментировать.
Back to Top