[Перевод] Бенчмарк для оценки LLM в задачах триажа security-находок Я создал собственный бенчмарк для оценки …
[Перевод] Бенчмарк для оценки LLM в задачах триажа security-находок Я создал собственный бенчмарк для оценки языковых моделей, потому что стандартные публичные тесты не отвечают на мой главный вопрос: какая модель лучше справляется с триажем security-находок. Эта задача отличается от оценки общей сообразительности модели. https://clck.ru/3TvC7q
Автор: Habr все новости об IT