Momentum Attention: когда внимание получает инерцию Внимание в трансформерах не имеет памяти между шагами, чт…
Momentum Attention: когда внимание получает инерцию Внимание в трансформерах не имеет памяти между шагами, что ведет к нестабильным градиентам. Решение Momentum Attention, где текущие Value векторы смешиваются с предыдущими через экспоненциальное скользящее среднее. Этот подход добавляет инерцию, стабилизируя фокус модели. Внутри разбор механики, корректный код на PyTorch и анализ трейд оффов... https://clck.ru/3PzBZx
Автор: Habr все новости об IT