Тихий убийца Трансформеров: как Weight Decay уничтожает эмбеддинги и нормализацию Разбираем фундаментальную о…
Тихий убийца Трансформеров: как Weight Decay уничтожает эмбеддинги и нормализацию Разбираем фундаментальную ошибку в обучении трансформеров: почему стандартный параметр weight_decay в оптимизаторе AdamW буквально уничтожает геометрию эмбеддингов редких токенов и создаёт сопротивление в слоях нормализации. https://clck.ru/3ThBao
Автор: Habr все новости об IT