Иллюзия ширины и геометрия глубины: почему глубокие нейросети умнее, и в чем лжет теорема об аппроксимации Ба…

Иллюзия ширины и геометрия глубины: почему глубокие нейросети умнее, и в чем лжет теорема об аппроксимации Базовая теорема машинного обучения гласит, что нейросеть с одним скрытым слоем может выучить любую функцию в мире, если сделать этот слой достаточно широким. Но на практике создатели SOTA моделей всегда выбирают глубину. В этой статье мы разберем геометрическую и физическую разницу между масштабированием ширины (d_model) и глубины (num_layers). Мы посмотрим, как нелинейности складывают латентное п... https://clck.ru/3TjDp5

Автор: Habr все новости об IT