Проклятие адаптивности: почему живучесть нейросетей ваш главный враг (и как я случайно ампутировал трансформе…
Проклятие адаптивности: почему живучесть нейросетей ваш главный враг (и как я случайно ампутировал трансформер) В классическом программировании ошибка в коде приводит к крашу. В Deep Learning ошибка в коде часто приводит к тому, что модель просто находит способ обойти ваш баг и сходится "на костылях". В этой статье я расскажу реальную историю о том, как ошибка в кастомном triton ядре для RoPE отрезала градиенты от матриц внимания. Самое страшное в этой истории не сам баг, а то, что модель феноменально хорош... https://clck.ru/3Ti2S2
Автор: Habr все новости об IT