Блог

Практические материалы об архитектуре LLM-приложений, маршрутизации моделей, оптимизации затрат и продакшен-эксплуатации AI-систем.

Свежие материалы

Ревью LLM-фичи перед запуском: что проверить до релиза

15 авг. 2024 г.·7 мин чтения

Ревью LLM-фичи перед запуском: что проверить до релиза

Ревью LLM-фичи перед запуском помогает поймать риски до релиза: продукт, безопасность, 152-ФЗ, SRE, аналитика и финальная проверка.

ревью LLM-фичи перед запускомвыпускной барьер LLM

План восстановления LLM-сервиса: RTO, RPO и переключение

15 авг. 2024 г.·11 мин чтения

План восстановления LLM-сервиса: RTO, RPO и переключение

План восстановления LLM-сервиса нужен там, где чат влияет на заявки, поддержку и продажи. Разберем RTO, RPO, роли, проверки и порядок переключения.

план восстановления LLM-сервисаRTO и RPO для LLM

Дежурство по LLM-платформе: какие алерты будят зря

14 авг. 2024 г.·10 мин чтения

Дежурство по LLM-платформе: какие алерты будят зря

Дежурство по LLM-платформе часто ломают шумные алерты. Разберем, что оставить в ночной смене, что увести в отчеты и как снизить ложные срабатывания.

дежурство по LLM-платформеалерты LLM

Порог эскалации модели: как выбрать без лишних затрат

11 авг. 2024 г.·6 мин чтения

Порог эскалации модели: как выбрать без лишних затрат

Порог эскалации модели помогает решить, когда переводить запрос на более дорогую LLM. Разберем сигналы, формулу порога и быстрые проверки.

порог эскалации моделинеопределенность ответа LLM

Единая схема ошибок LLM API для разных провайдеров

08 авг. 2024 г.·6 мин чтения

Единая схема ошибок LLM API для разных провайдеров

Единая схема ошибок LLM API помогает свести timeout, rate limit, policy block и битый ответ к ясным кодам, ретраям и понятным сообщениям.

единая схема ошибок LLM APIнормализация ошибок провайдеров

SLO для LLM-сервиса: метрики для продакшена без шума

31 июл. 2024 г.·9 мин чтения

SLO для LLM-сервиса: метрики для продакшена без шума

SLO для LLM-сервиса: как задать метрики задержки, отказов, качества и стоимости для продакшена, чтобы команда видела риск и держала бюджет.

SLO для LLM-сервисаметрики LLM в продакшене

Повторные запросы к LLM: backoff, circuit breaker, очереди

27 июл. 2024 г.·9 мин чтения

Повторные запросы к LLM: backoff, circuit breaker, очереди

Повторные запросы к LLM требуют правил: без них таймауты, 429 и скачки задержки быстро ломают сервис. Разберем backoff, circuit breaker и очереди.

повторные запросы к LLMbackoff для API

Канареечный релиз LLM: как включать трафик без сюрпризов

27 июл. 2024 г.·9 мин чтения

Канареечный релиз LLM: как включать трафик без сюрпризов

Канареечный релиз LLM снижает риск при смене модели: разберем этапы от 1% трафика до полного включения и понятные стоп-условия.

канареечный релиз LLMпоэтапное включение модели

Согласование LLM с юристами: одна страница без задержек

25 июл. 2024 г.·7 мин чтения

Согласование LLM с юристами: одна страница без задержек

Согласование LLM с юристами можно ускорить одной страницей: данные, риски, меры контроля и короткая проверка перед запуском.

согласование LLM с юристамиодностраничное описание LLM

Публичный и внутренний индексы: когда их разделять

19 июл. 2024 г.·7 мин чтения

Публичный и внутренний индексы: когда их разделять

Публичный и внутренний индексы стоит разделять, когда сайт, саппорт и база для сотрудников живут по разным правилам доступа, обновления и качества.

публичный и внутренний индексыединый корпус знаний

Чек-лист 152-ФЗ для LLM: что проверить до пилота

17 июл. 2024 г.·6 мин чтения

Чек-лист 152-ФЗ для LLM: что проверить до пилота

Чек-лист 152-ФЗ для LLM поможет проверить логи, бэкапы, маскирование PII, согласия и аудит-трейлы перед пилотом, закупкой и запуском.

Чек-лист 152-ФЗ для LLM152-ФЗ и LLM в банке

LLM в KYC и AML: где они помогают, а где опасны команде

16 июл. 2024 г.·9 мин чтения

LLM в KYC и AML: где они помогают, а где опасны команде

LLM в KYC и AML полезны для сводок, поиска паттернов и черновиков, но рискованны для финального решения. Разбираем границы и меры контроля.

LLM в KYC и AMLвспомогательный анализ KYC

Alias модели: кто им владеет и когда объявлять deprecation

14 июл. 2024 г.·11 мин чтения

Alias модели: кто им владеет и когда объявлять deprecation

Alias модели часто живет дольше релиза и ломает интеграции. Разберем владение, замену версий, сроки снятия с поддержки и правила без сюрпризов.

alias моделивладение alias

Квантизация моделей с открытыми весами: как честно мерить потери

07 июл. 2024 г.·9 мин чтения

Квантизация моделей с открытыми весами: как честно мерить потери

Квантизация моделей с открытыми весами требует не средних метрик, а теста на ваших задачах: как сравнить 8-bit и 4-bit без самообмана.

квантизация моделей с открытыми весамиоценка качества 8-bit и 4-bit

Промпты как код: как ревьюить и тестировать инструкции

02 июл. 2024 г.·6 мин чтения

Промпты как код: как ревьюить и тестировать инструкции

Промпты как код: как хранить версии, собирать тесты, проводить ревью и безопасно выкатывать системные инструкции в продакшен.

промпты как кодревью системных инструкций

Feature flags для LLM-функций без правки конфигов вручную

02 июл. 2024 г.·8 мин чтения

Feature flags для LLM-функций без правки конфигов вручную

Feature flags для LLM-функций помогают включать модели по аккаунтам, ролям и сегментам без правки конфигов и с понятным контролем риска.

feature flags для LLM-функцийдоступ к моделям по ролям