Геометрия превосходства: Почему DeepSeek-V4 и Moonshot AI убили AdamW, и как оптимизатор Muon меняет физику о…
Геометрия превосходства: Почему DeepSeek-V4 и Moonshot AI убили AdamW, и как оптимизатор Muon меняет физику обучения Долгие 10 лет индустрия молилась на оптимизатор AdamW, слепо применяя его ко всем параметрам нейросети. Но весной 2026 года вышли DeepSeek-V4 и Kimi K2 от Moonshot AI, которые переписали правила игры. В их основе лежит Muon оптимизатор, который снижает затраты на обучение в два раза. В этой статье мы разберем, почему AdamW стал архитектурным рудиментом, как Muon использует итерации Ньютона-Шу... https://clck.ru/3TiCGn
Автор: Habr все новости об IT