Распознавание образов и машинное обучение. Чтение 22. Байесовская линейная классификация

Наконец, мы добрались до байесовского метода обучения обобщённого линейного классификатора. Во-первых, выводим BIC - байесовский информационный критерий для оценки качества модели. Для этого мы используем аппроксимацию Лапласа, а потом аппроксимацию возникшего фактора Оккама. Но наш проводник по миру машинного обучения - доктор Бишоп - сообщает, что на практике пользы от этих оценок мало, они слишком грубые, и лучше использовать оценку без приближения фактора Оккама. Во-вторых, выводим сам байесовский метод: от нормальной априорной оценки распределения параметров через аппроксимацию Лапласа приходим к апостериорному нормальному распределению параметров. Используя это распределение, строим при помощи творческих математических манипуляций с интегралами через дельта-функцию Дирака предсказывающее распределение. Это красивый технический приём. #теорвер #machinelearning #красота 1P.S. Продолжаются непонятки с выводом формулы для градиента ошибки. На этот раз я запутался в размерностях переменных. Активация - это не многомерная величина! Формула градиента важна для следующей главы о нейронных сетях, поэтому я запишу отдельное видео с её разбором. 2P.S. Порой современная математическая нотация запутывает стороннего наблюдателя. Моя борьба с градиентом ошибки (простой штукой, в общем-то) - показательный пример. Поэтому важны тексты на подобии “Функциональной дифференциальной геометрии“, в которых эту нотацию пытаются сделать строгой и очевидной.
Back to Top