Как я поймал Трансформер на читерстве: гроккинг, математика и Mechanistic Interpretability Феномен&nb…
Как я поймал Трансформер на читерстве: гроккинг, математика и Mechanistic Interpretability Феномен Grokking и Mechanistic Interpretability — главные тренды в исследованиях лабораторий уровня OpenAI и Anthropic. Я решил потрогать эти концепции своими руками на уровне тензоров. Цель казалась тривиальной: заставить кастомный микро-Трансформер (всего 1М параметров) выучить базовую арифметику с нуля. Однако вместо математического гения я получил ленивого мошенника. Эта ст... https://clck.ru/3STtCh
Автор: Habr все новости об IT