Двойной спуск, широкие минимумы и стохастический градиентный спуск

Феномен двойного спуска (Double Descent, DD) недавно стал особенно интригующим открытием в сообществе Deep Learning. В то время как в большинстве работ рассматривается более известный DD по размеру модели (тестовый риск против размера модели) как с эмпирической, так и с теоретической точек зрения, гораздо меньше внимания уделяется не менее загадочному эффекту DD по итерациям обучения (тестовый риск против количества эпох обучения). Еще одно интересное наблюдение, набирающее обороты в самых последних исследо
Back to Top