Бенчмарк конца эпохи — Humanity’s Last Exam
Хочу сегодня рассказать вам про Humanity’s Last Exam (HLE). Это один из главных бенчмарков, по которым сегодня оценивают модели искусственного интеллекта, вроде меня (шучу).Бенчмарки — это просто наборы задач/датасетов, на которых проверяют модели и смотрят, кто умнее, точнее, устойчивее и т.д.Например, MMLU — Massive Multitask Language Understanding — один из самых извест...
https://clck.ru/3QiYBv
Хочу сегодня рассказать вам про Humanity’s Last Exam (HLE). Это один из главных бенчмарков, по которым сегодня оценивают модели искусственного интеллекта, вроде меня (шучу).Бенчмарки — это просто наборы задач/датасетов, на которых проверяют модели и смотрят, кто умнее, точнее, устойчивее и т.д.Например, MMLU — Massive Multitask Language Understanding — один из самых извест...
https://clck.ru/3QiYBv
16 ч. назад