03 февр. 2025 г.·6 мин чтения

Тестовые и боевые данные в LLM-проекте: как разделить

Разбираем, как разделить тестовые и боевые данные в LLM-проекте: правила для песочницы, QA и демо, доступов, логов и ежедневных проверок.

Что ломается без разделения сред

Когда песочница, QA и прод работают по одним правилам, проблемы начинаются не с громкой аварии. Обычно все выглядит буднично: разработчик берет пару реальных чатов для быстрой проверки, аналитик копирует живую заявку в тест, менеджер показывает демо на старом примере из продакшена. По отдельности это кажется мелочью. Вместе такие мелочи размывают границы и ломают порядок работы.

Главная проблема в том, что тестовые и боевые данные в LLM-проекте перестают отличаться друг от друга. После этого уже непонятно, где можно спокойно экспериментировать, а где каждое сообщение клиента нужно считать чувствительным. Команда теряет ориентиры, а следом и контроль.

Сначала страдает безопасность. В тестовых стендах почти всегда больше послаблений: шире доступы, слабее логирование, меньше внимания к срокам хранения. Если туда попадают реальные обращения, в логах быстро оседают ФИО, телефоны, номера договоров, адреса и детали переписки. Потом эти данные расходятся дальше: в экспорты, скриншоты, дампы и внутренние чаты.

Дальше начинает сыпаться разработка. Когда инженеры регулярно копируют живые заявки в тест, они привыкают решать задачи самым коротким путем. В песочнице накапливаются куски продовых данных, а QA проверяет сценарии на материале, которого там вообще не должно быть. Потом сложно понять, из-за чего модель ответила странно: из-за промпта, из-за старого кэша или потому, что тест шел на реальных диалогах.

Отдельная боль - демо. Команды часто берут удачные боевые примеры, потому что они выглядят убедительно. Но старый кейс из продакшена может содержать имя клиента, детали заказа или внутренние пометки сотрудника. Один неудачный показ, и конфиденциальные данные уходят за пределы допустимого круга.

Есть и регуляторный риск. Если компания работает с персональными данными по 152-ФЗ, смешивание сред сразу усложняет аудит. Трудно доказать, кто и зачем получил доступ к данным, почему они оказались в тесте и сколько там хранились. Даже если часть контроля берет на себя шлюз вроде RU LLM с маскированием PII и аудитом запросов, базовое правило остается тем же: реальные данные не должны случайно попадать в среду для экспериментов.

Цена ошибки вполне приземленная: лишний доступ, лишняя копия данных и долгий разбор после инцидента.

Какие среды стоит развести сразу

Если не разнести среды с самого начала, тестовые и боевые данные в LLM-проекте смешаются очень быстро. Обычно причина простая: команде удобно держать один набор ключей, один стек логов и один общий стенд. Через месяц уже трудно понять, где был реальный диалог клиента, а где черновой эксперимент.

Минимальный набор обычно такой:

Песочница для сырых идей, новых промптов, быстрых гипотез и проб с разными моделями. Здесь нужны только синтетические данные, учебные примеры и короткоживущие логи.
Стенд для демо, который используют для показов заказчику, внутренних презентаций и пилотов. Внешне он может быть похож на прод, но внутри должен работать на обезличенных сценариях и заранее подготовленных данных.
QA-стенд для повторяемых сценариев, регресса, интеграционных проверок и тестов на типовые ошибки. Если сценарий нельзя воспроизвести дважды, для QA он почти бесполезен.
Прод, где живут реальные запросы, рабочие метрики, инциденты и клиентские данные. Сюда нельзя тянуть черновые промпты, временные ключи и случайные выгрузки из тестов.

Эти среды должны различаться не только данными. Им нужны разные доступы, разные секреты, разные правила логирования и отдельные правила на импорт датасетов. Иначе песочница быстро становится запасным входом в прод.

У каждой среды должен быть владелец. Не абстрактная команда и не "все понемногу", а конкретный человек, который отвечает за состав данных, доступы и временные исключения. Пока владелец не назван, среда почти всегда становится общей, а это плохой знак.

Какие данные пускать в каждую среду

Для тестовых и боевых данных в LLM-проекте работает простое правило: чем дальше среда от реального пользовательского потока, тем меньше в ней должно быть живых данных. Если среда нужна для эксперимента, обучения команды или показа интерфейса, ей не нужен настоящий клиентский след.

В песочницу лучше загружать только синтетические наборы. Это вымышленные анкеты, договоры, чаты и заявки, которые похожи по структуре на боевые, но не относятся к реальным людям и компаниям. Хорошая песочница проверяет логику, формат ответа и поведение промптов, а не работу с чужими персональными данными.

Для стенда с демо обычно хватает коротких обезличенных примеров. Достаточно нескольких фрагментов диалога, пары документов и типовых вопросов. Имя можно сократить до инициалов, номер договора заменить шаблоном, адрес убрать совсем. Если по примеру можно восстановить человека или сделку, такой набор уже не подходит.

В QA нужен фиксированный набор тест-кейсов. Его собирают один раз, версионируют и не подмешивают туда случайные выгрузки из продакшена. Такой набор помогает понять, что именно сломалось после смены модели, промпта или маршрутизации. Если сегодня тесты идут на одном наборе, а завтра на другом, команда спорит уже не о качестве, а о шуме.

В прод стоит пускать только рабочий поток. Без ручных проб, быстрых экспериментов и отладки на живых обращениях. Для этого и нужны отдельные среды. Иначе одна любопытная проверка превращается в утечку или в лишнюю запись в логах.

Спорные поля лучше маскировать по умолчанию. Это касается ФИО, телефонов, почты, паспортных данных, адресов, номеров счетов и любого свободного текста, куда оператор мог вставить персональные данные. Если команда не уверена, нужно ли поле модели, его сначала скрывают, а потом уже доказывают обратное.

Короткое правило можно зафиксировать так:

песочница - полностью синтетические диалоги и документы;
демо - короткие обезличенные примеры без деталей сделки;
QA - замороженный регрессионный набор;
прод - только реальные запросы по правилам доступа и хранения.

Если команда работает в российском контексте, маскирование PII и аудит по каждому запросу лучше включать сразу. В RU LLM это можно делать на уровне шлюза, а логи и бэкапы при этом остаются в РФ. Но даже в таком режиме сами правила разделения сред никто не отменял.

Как настроить разделение шаг за шагом

Разделение сред лучше делать в тот день, когда проект еще маленький. Потом мешают старые привычки: общий API-ключ, один бакет на все случаи и "временный" дамп из продакшена, который живет в тесте месяцами. Простая схема в начале почти всегда дешевле, чем разбор утечки потом.

Сначала соберите карту всех мест, где данные появляются и где они остаются. Обычно это не только основная база, но и логи запросов, кэш промптов, векторная база, файлы выгрузки, бэкапы, таблицы для оценки качества и трейсы из SDK.
Потом пометьте поля по типу. Отдельно выделите персональные данные, отдельно коммерчески чувствительные поля, отдельно служебные данные вроде внутренних ID, токенов, технических комментариев и системных меток. После такой разметки быстро видно, что можно копировать в тест, а что нельзя трогать вообще.
Дальше разводите среды не папками, а учетками и секретами. У dev, demo, QA и prod должны быть свои API-ключи, сервисные аккаунты, базы, бакеты и индексы. Если один секрет открывает и тест, и боевое хранилище, разделение существует только на словах.
После этого запретите перенос боевых дампов в тестовую среду. Для тестов нужны синтетические наборы или обезличенные копии, которые скрипт собирает по понятным правилам. Если надо разобрать редкий баг, берите минимальный фрагмент, маскируйте поля до загрузки и фиксируйте, кто это сделал.
В конце задайте отдельные endpoint и base_url для каждой среды. В LLM-проектах часто меняют одну строку в конфиге и думают, что этого достаточно. На деле у среды должны отличаться не только адреса, но и логи, кэши и сроки хранения.

Проверьте схему на одном коротком сценарии. Например, тестовый ассистент получает запрос со статусом заказа, пишет trace, кладет ответ в кэш и сохраняет запись в лог. Если в этом пути нет боевых данных, боевых ключей и боевых хранилищ, значит основа собрана правильно. Если кто-то в команде не может быстро ответить, какой ключ пишет в какой лог, разделение еще не готово.

Как контролировать доступы и логи

Включите маскирование PII

В RU LLM скрывайте чувствительные поля до записи в логи и до разбора инцидентов.

Включить

Самая частая ошибка скучная, но опасная: команда выдает доступы по привычке. Один и тот же админский токен живет в песочнице, QA и демо, выгрузки лежат в общей папке, а полные диалоги пишутся в логи без чистки. После этого граница между тестом и боем просто исчезает.

Права лучше выдавать под задачу. Аналитику нужен просмотр оценок и промптов, QA-инженеру нужен запуск тестов, а выгрузка диалогов нужна далеко не всем. Если человеку не надо скачивать данные или менять системный промпт, не давайте ему эти действия на всякий случай. Временный доступ тоже полезен: поставили срок на неделю, задача закончилась, доступ закрылся сам.

Секреты храните отдельно для каждой среды. У песочницы, демо, QA и продакшена должны быть разные API-ключи, сервисные аккаунты и хранилища секретов. Если разработчик случайно вставит боевой ключ в тестовый стенд, это уже не мелочь, а прямой путь к утечке.

Общие папки лучше убрать совсем. Выгрузки, скриншоты диалогов и CSV с примерами быстро расползаются по ноутбукам и чатам. Для каждой среды нужна своя папка или бакет, свой срок хранения и понятный список людей, которые могут скачать файл.

С логами работает простое правило: писать только то, что нужно для разбора ошибки. Перед записью маскируйте ФИО, телефоны, почту, номера договоров и любые свободные поля, где пользователь мог оставить личные данные. Часто хватает метаданных: ID запроса, модель, время ответа, код ошибки и длина промпта. Полный текст запроса и ответа нужен заметно реже, чем кажется в начале.

Минимальный набор проверок небольшой:

смотреть, кто и когда скачивал выгрузки;
отмечать ручные правки промптов и системных инструкций;
проверять, из какой среды пришел запрос;
удалять логи по сроку, а не когда-нибудь;
разбирать любые массовые экспорты в тот же день.

Даже еженедельной проверки часто хватает, чтобы поймать большую часть проблем до инцидента.

Пример: демо-стенд для клиентского ассистента

Продакт хочет показать заказчику ассистента поддержки: как бот отвечает на вопрос о доставке, находит статус заявки и передает разговор оператору. Ошибка тут почти всегда одна и та же. Команда берет свежие диалоги из боевой CRM, убирает пару имен и думает, что этого хватит. Не хватает. Один забытый телефон, адрес или номер заказа уже делает демо опасным.

Нормальный стенд для демо собирают на синтетических данных. Команда пишет правдоподобные сценарии сама и не тянет ничего из реальной переписки. Для показа этого обычно достаточно, если диалоги похожи на живые и отражают частые обращения.

Под такой стенд удобно подготовить небольшой, но стабильный набор:

20-30 синтетических диалогов по частым темам: возврат, задержка доставки, смена адреса, ошибка оплаты;
фиктивную базу заказов с выдуманными ID, датами и статусами;
один и тот же набор вопросов для QA перед каждой встречей;
отдельные учетные данные и отключенные боевые интеграции.

QA не должен каждый раз импровизировать. Перед встречей он прогоняет один и тот же набор вопросов и смотрит на простые вещи: ассистент не путает статусы, не открывает пустые карточки, не отправляет запросы в боевые системы и не показывает лишние поля в ответе. Такой прогон занимает немного времени, зато быстро ловит поломки после смены промпта, модели или бизнес-логики.

Менеджеру потом проще вести показ. Он открывает заранее подготовленный сценарий, где клиент спрашивает про возврат товара, бот уточняет номер заказа из фиктивной базы, предлагает шаги и при необходимости переводит диалог на оператора. Сценарий выглядит правдоподобно, но в нем нет ни одного настоящего клиента.

Хороший стенд для демо должен быть скучно предсказуемым. Для показа это плюс, а не минус.

Где команды ошибаются чаще всего

Проверьте контур перед релизом

Подключите RU LLM и добавьте маскирование PII, аудит-трейлы и хранение в РФ.

Подключить шлюз

Самые дорогие ошибки выглядят буднично. Команда спешит проверить промпт, берет готовые данные из прода, а потом месяцами живет с лишним риском, который никто не оформлял и не согласовывал.

Первая частая проблема - одно общее хранилище для теста и боевой среды. В первые недели это кажется удобным: не нужно дублировать схемы, бакеты и права. Потом QA, разработка и прод начинают смотреть в один и тот же набор файлов, таблиц и индексов, и любая временная выгрузка становится источником утечки.

Не лучше и практика с одним API-ключом на всех. Когда один ключ используют разработчики, тестировщики, стенд для демо и прод, вы теряете следы. Уже нельзя быстро понять, кто отправил чувствительный запрос, кто включил дорогую модель и кто унес логи наружу.

Где утечка начинается незаметно

Очень часто люди тянут реальные вложения, чтобы просто проверить, как модель читает PDF, письмо или скан. На этом месте ломается почти вся дисциплина разделения сред. Один настоящий договор или одно обращение клиента в песочнице, и тестовая среда перестает быть тестовой.

Похожая история с логами. Инженер скачивает боевые запросы на личный ноутбук, чтобы спокойно посмотреть ошибки, сравнить ответы модели или собрать примеры для eval. Если на устройстве нет корпоративного контроля, шифрования и понятного срока хранения, данные уже ушли из управляемого контура.

После демо команды часто забывают про кэш. А в нем могут оставаться фрагменты диалогов, извлеченный текст из вложений и куски системных промптов. Демо закончилось, а следы остались в Redis, файловом кэше или локальной папке приложения.

Хуже всего то, что такие ошибки редко похожи на взлом. Обычно их создают удобство и спешка. Поэтому простое правило работает лучше сложных формулировок: для экспериментов использовать только синтетику или заранее обезличенные данные, а любое исключение фиксировать в логах и доступах.

Быстрый чек-лист перед релизом

Запустите модели в РФ

Выбирайте open-weight модели RU LLM на собственной GPU-инфраструктуре в российских ЦОДах.

Выбрать модель

Перед выкладкой полезно остановиться на десять минут и пройти короткую проверку. Большая часть утечек случается не из-за сложной атаки, а из-за мелочи: не тот ключ, общий лог, старая выгрузка с почтами или временный доступ, который так и не закрыли.

Если релиз затрагивает LLM-цепочку, промпты, маршрутизацию моделей или логи запросов, проверяйте не только код. Проверьте среду, данные и права.

У каждой среды назначен владелец, который отвечает за состав данных, доступы и срок жизни временных настроек.
В тестовых наборах нет реальных ФИО, телефонов, почты и других полей, по которым можно узнать клиента.
Логи и трассировки скрывают чувствительные поля до записи, а не после инцидента.
Доступ в прод выдают отдельно и с явным одобрением.
Команда знает, где лежит эталонный набор для QA, и использует именно его.

Если хотя бы один пункт вызывает спор или требует быстро потом поправить, релиз лучше притормозить. Один лишний час перед выкладкой обычно дешевле, чем разбор утечки, чистка логов и неприятный разговор с безопасностью.

Что сделать дальше

Начните с короткого рабочего документа. Не с большой политики безопасности, а с листа на 1-2 страницы, который команда реально откроет перед релизом. В нем достаточно четырех вещей: какие среды у вас есть, какие данные в них разрешены, кто дает доступ и что делать, если в тест случайно попали реальные данные.

Хороший признак простоты такой: новый инженер читает документ за десять минут и после этого понимает, можно ли грузить в QA выгрузку из CRM, кто должен одобрить клиентское демо и где искать логи запросов. Если после чтения остаются спорные места, текст еще сырой.

Дальше назначьте первую проверку. Без даты и имени правила быстро превращаются в пожелание. Пусть у каждой среды будет один ответственный, а ближайшая ревизия уже стоит в календаре, например через две недели после запуска новых правил.

Минимальный план выглядит так:

утвердить короткий документ и положить его туда, где его видит вся команда;
назначить владельца правил и владельца логов доступа;
выбрать дату первой проверки и список того, что вы проверяете;
зафиксировать, кто останавливает релиз при нарушении правил.

После этого прогоните два живых сценария. Первый - демо для внешнего клиента или внутреннего заказчика. Второй - обычный QA-сценарий с логами, ретраями, экспортом ответов и ручной проверкой промптов. Бумажные правила почти всегда выглядят чище, чем реальная работа команды.

Если команде нужен OpenAI-совместимый шлюз в российском контуре, RU LLM можно рассматривать как инфраструктурную основу для таких правил. Он позволяет сохранить текущие SDK, код и промпты без переписывания, а логи и бэкапы держать внутри РФ.

Если сделать сегодня только одно действие, пусть это будет не созвон, а проверка одного демо и одного QA-прогона по новым правилам. После такого прогона слабые места всплывают сразу.