[Перевод] Бенчмарк для оценки LLM в задачах триажа security-находок Я создал собственный бенчмарк для оценки …

[Перевод] Бенчмарк для оценки LLM в задачах триажа security-находок Я создал собственный бенчмарк для оценки языковых моделей, потому что стандартные публичные тесты не отвечают на мой главный вопрос: какая модель лучше справляется с триажем security-находок. Эта задача отличается от оценки общей сообразительности модели. https://clck.ru/3TvC7q

Автор: Habr все новости об IT