Как мы заставили vLLM «лениться» под нагрузкой и спасли Time-to-First-Token Теги: Инфраструктура…
Как мы заставили vLLM «лениться» под нагрузкой и спасли Time-to-First-Token Теги: Инфраструктура, LLM, Python, Прокси-серверы, ОптимизацияКогда GPU-кластер с vLLM задыхается от пиковых нагрузок, классический Rate Limiting и блокировка пользователей — это худший UX из возможных. А что если не отбрасывать запросы, а заставить саму языковую модель «сжать» свои промпты и стать предельно лаконичной, выдавая только самую суть? В этой статье мы разбираем архитектуру LazyGat... https://clck.ru/3TFbbh
Автор: Habr все новости об IT