Logo
Habr все новости об IT @habr
RLHF. История становления идеи — 4. HHH: helpful, honest, harmless, Instruct LLM, Constitutional AI

Заканчиваем разбирать части пайплайна RLHF с точки зрения исторической ретроспективы, чтобы понять, как сформировалась идея, которая сегодня лежит в основе самых популярных LLM.В первой части мы ознакомились с общим пайплайном RLHF, LLM, KL-контролем и необходимостью предобучения на пусть и грязных, но больших данныхВо второй - сравнили Offline RL и Online RL, увидели их ограничения, попробовали и...

https://clck.ru/3CRcA4
3 мес. назад

Ответов пока нет!

Похоже, что к этой публикации еще нет комментариев. Чтобы ответить на эту публикацию от Habr все новости об IT, нажмите внизу под ней