Спортивный анализ данных - - метрики + решение соревнования по стоимости квартир
00:03 Обсуждение важности метрик для оценки качества моделей и выбора правильных метрик для решения задач.
• Упоминание о том, что метрики могут быть использованы для отбора и подбора гиперпараметров, а также для выбора моделей.
07:28 Обсуждение двух основных метрик для регрессии: MSE (среднеквадратичная ошибка) и MAE (средняя абсолютная ошибка).
• Упоминание о том, что MSE может быть функцией потерь для некоторых алгоритмов, а MAE - нет.
• Обсуждение недостатков MSE и MAE, таких как отсутствие верхней границы и сложность сравнения моделей с разными таргетами.
11:36 Нормированные метрики
• Обсуждение MapE (средняя ошибка в процентах) и SMapE (средняя ошибка в удвоенном модуле ошибки).
• Упоминание о том, что эти метрики позволяют сравнивать разные модели и учитывать относительные величины ошибок.
14:23 Метрики для оценки качества предсказаний в задачах классификации и регрессии.
• В регрессии используется метрика MSE (mean squared error), которая учитывает абсолютные ошибки предсказаний.
• В классификации используются метрики точности (accuracy) и полноты (recall), которые учитывают только ошибки в предсказании одного из классов.
21:41 Примеры использования метрик
• В примере с банком, где есть проблема дисбаланса классов, метрика точности может быть не самой эффективной, так как она может предсказывать только негативные классы.
• В примере с медициной, где лекарство применяется к больным, а не здоровым, метрика полноты может быть более подходящей, так как она учитывает ошибки в предсказании только негативных классов.
29:59 Метрики для классификации
• Видео обсуждает различные метрики для классификации, включая полноту, точность и F1-меру.
• Полнота учитывает только количество правильно предсказанных объектов, в то время как точность учитывает только количество правильно предсказанных положительных объектов.
• F1-мера является средним гармоническим между полнотой и точностью, и может быть использована для балансировки между этими метриками.
35:42 Использование метрик для многоклассовой классификации, где каждый класс имеет свою собственную полноту и точность.
• Если классы не сбалансированы, можно использовать взвешенную F1-меру для учета дисбаланса между классами.
42:27 Использование вероятностной классификации, где объекты ранжируются по их вероятностям принадлежности к классам.
• Это позволяет учитывать порядок следования объектов и их вероятностную принадлежность к классам.
46:04 Метрики классификации
• Видео обсуждает различные метрики классификации, включая точность, полноту, F1-меру и логарифмическую потерю.
• Логарифмическая потеря, также известная как кросс-энтропия, имеет некоторые особенности, такие как возможность работать с несколькими классами и способность штрафовать за ошибки.
51:51 Применение метрик
• Метрики могут быть использованы для оценки моделей классификации, но их интерпретация может быть сложной.
• В видео обсуждаются примеры использования метрик для анализа данных и определения ошибок в классификации.
55:25 Использование метрик в реальных задачах, например, для прогнозирования цен на основе признаков и макропризнаков.
• Обсуждается важность использования метрик для оценки моделей и определения ошибок в реальных задачах.
01:01:23 Анализ данных и выбор фич
• Автор анализирует данные о квартирах и выбирает важные параметры для анализа, такие как площадь, число комнат, материал и год постройки.
• Он также учитывает возможные опечатки и ошибки в данных.
01:06:42 Обработка данных и кодирование для упрощения анализа данных и создания более точных результатов.
• Он обучает кодировщик на трейне и применяет его на тесте для получения более точных результатов.
01:11:15 Разбиение данных на бины и обработка ошибок
• Автор разбивает данные на бины по годам постройки и возрасту дома для более точного анализа.
• Он также исправляет ошибки в данных, такие как пропуски и опечатки.
01:14:58 Применение результатов анализа на практике, заполнение пропусков и корректировки ошибок в данных.
• Автор также использует полученные результаты для улучшения качества данных и повышения точности анализа.
01:16:50 Автор создает модель для прогнозирования цены квартиры, используя признаки, такие как этаж, число комнат, площадь комнаты, год постройки, качество материалов и другие.
• Он также выделяет признаки, которые могут быть полезны для заполнения пропусков в данных, такие как число комнат, площадь одной комнаты и тип застройки.
01:23:33 Автор обучает две модели на данных, используя градиентный регрессор и подбирая параметры.
• Он затем применяет обученную модель к тестовым данным, чтобы предсказать цену квадратного метра, а затем умножает результат на общую площадь квартиры, чтобы получить цену квартиры.
01:26:40 Автор анализирует важность признаков, используя коэффициент важности признаков.
• Наиболее важными признаками оказываются число людей в регионе, площадь квартиры и возраст дома.
• Автор также обсуждает, что можно было бы сделать лучше и где еще поэкспериментировать.