[Перевод] Reinforcement Learning from Human Feedback: когда одной математики мало Сотни людей собрались на ко…

[Перевод] Reinforcement Learning from Human Feedback: когда одной математики мало Сотни людей собрались на конференции ICML на туториале про обучение с подкреплением на основе отзывов (reinforcement learning from human feedback, RLHF). Докладчик спросил, кто хочет размечать данные. Пять, быть может, десять человек подняло руки. И это никого не удивило. Что было дальше? https://clck.ru/35PzXQ

Автор: Habr все новости об IT