Как мы хакнули ИИ-бенчмарк PAC1 без нейросетей Недавно я участвовал в корпоративном хакатоне по обходу ИИ-пес…
Как мы хакнули ИИ-бенчмарк PAC1 без нейросетей Недавно я участвовал в корпоративном хакатоне по обходу ИИ-песочниц. Задача: пройти закрытый бенчмарк PAC1, где ИИ-агенту нужно работать с виртуальной файловой системой (чтение логов, поиск файлов, отправка писем) и обходить ловушки безопасности (Indirect Prompt Injections).Но реальность оказалась суровой: хваленые reasoning-модели постоянно галлюцинировали, ломали структуру JSON на выходе (выдава... https://clck.ru/3Sp27k
Автор: Habr все новости об IT