RLHF. История становления идеи — 4. HHH: helpful, honest, harmless, Instruct LLM, Constitutional AI
Заканчиваем разбирать части пайплайна RLHF с точки зрения исторической ретроспективы, чтобы понять, как сформировалась идея, которая сегодня лежит в основе самых популярных LLM.В первой части мы ознакомились с общим пайплайном RLHF, LLM, KL-контролем и необходимостью предобучения на пусть и грязных, но больших данныхВо второй - сравнили Offline RL и Online RL, увидели их ограничения, попробовали и...
https://clck.ru/3CRcA4
Заканчиваем разбирать части пайплайна RLHF с точки зрения исторической ретроспективы, чтобы понять, как сформировалась идея, которая сегодня лежит в основе самых популярных LLM.В первой части мы ознакомились с общим пайплайном RLHF, LLM, KL-контролем и необходимостью предобучения на пусть и грязных, но больших данныхВо второй - сравнили Offline RL и Online RL, увидели их ограничения, попробовали и...
https://clck.ru/3CRcA4
3 мес. назад