RLHF. История становления идеи — 4. HHH: helpful, honest, harmless, Instruct LLM, Constitutional AI Заканчива…

RLHF. История становления идеи — 4. HHH: helpful, honest, harmless, Instruct LLM, Constitutional AI Заканчиваем разбирать части пайплайна RLHF с точки зрения исторической ретроспективы, чтобы понять, как сформировалась идея, которая сегодня лежит в основе самых популярных LLM.В первой части мы ознакомились с общим пайплайном RLHF, LLM, KL-контролем и необходимостью предобучения на пусть и грязных, но больших данныхВо второй - сравнили Offline RL и Online RL, увидели их ограничения, попробовали и... https://clck.ru/3CRcA4

Автор: Habr все новости об IT