Как технология LayerScale спасает сверхглубокие трансформеры (и почему о ней молчат туториалы) Все знают, что…
Как технология LayerScale спасает сверхглубокие трансформеры (и почему о ней молчат туториалы) Все знают, что трансформеры можно масштабировать: просто добавь больше слоев, и модель станет умнее. Но на практике попытка обучить трансформер глубиной больше 50 слоев часто оборачивается градиентным хаосом и расходящимся loss'ом. В этой статье мы разберем малоизвестную, но критически важную технологию LayerScale. Мы посмотрим, как Residual связи «загрязняют» шину данных, и как один микроско... https://clck.ru/3Ti9Z7
Автор: Habr все новости об IT