[Перевод] GEPA вместо RL: как рефлексивная эволюция промптов обгоняет обучение с подкреплением Большие языков…

[Перевод] GEPA вместо RL: как рефлексивная эволюция промптов обгоняет обучение с подкреплением Большие языковые модели (LLM) всё чаще адаптируются к downstream-задачам с помощью методов RL, таких как Group Relative Policy Optimization (GRPO), которые нередко требуют тысячи прогонов для освоения новых задач. Мы утверждаем, что интерпретируемая природа языка может предоставлять LLM куда более богатую обучающую среду по сравнению с policy gradient’ами, основанными на разреженных скалярных нагр... https://clck.ru/3PATTK

Автор: Habr все новости об IT