Распознавание образов и машинное обучение. Чтение 34. Байесовское обучение нейросетей

Завершаем главу о нейросетях байесовскими методами работы с ними. Через несколько глав мы вернёмся к этой проблеме с продвинутой технологией вариационного вывода. Здесь же мы переносим байесовские процедуры работы с линейными моделями на нейросети. Функция нейросети нелинейна, и это создаёт сложности. Но мы сталкивались с подобными проблемами при байесовском анализе линейных классификаторов, и знаем, что делать. Нужно искать моду апостериорного распределения параметров нейросети методом максимизации этого распределения, после чего строить приближение Лапласа вокруг этой моды, чтобы получить нормальное апостериорное распределение параметров, которое можно использовать для построения прогнозного распределения. С ним тоже возникнут проблемы из-за нелинейности функции нейрости. С этим обстоятельством мы справляемся при помощи линеаризации функции нейросети через ряд Тейлора в окрестности найденных параметров нейросети. Необходимые для всех этих вычислений градиенты и гессианы можно рассчитывать методом обратного распространения ошибок. Кроме этого, мы можем перенести и процедуру оптимизации гиперпараметров для линейных моделей на нейросети. С оговоркой о том, что апостериорное распределение для нейросети окажется мультимодальным, и поэтому параметры нейросети, полученные максимизацией апостериорного распределения, будут зависеть от выбора начальных значений численного метода оптимизации. Тем не менее, мы можем использовать эту процедуру для сравнения моделей с разной архитектурой скрытых слоёв, помня о том, что вероятность - это мера, а найденные нами параметры нейросети принадлежат большому классу эквивалентных по задаваемой функции параметров, на что нужно делать поправку. #теорвер и #machinelearning, #иммуроран и прикладной #матан

226 views

373