Ваш AI работает в России
Мы не арендуем кусочек чужого облака. Мы управляем собственным GPU-флотом в российских дата-центрах: Blackwell для frontier-моделей, Hopper для продакшена, L40S для высоконагруженного инференса 7–32B. Каждому корпоративному клиенту выделяется изолированный набор GPU — данные и веса никогда не смешиваются.
GPU-тиры
3 поколения
Архитектуры NVIDIA
Blackwell · Hopper · Ada
Data residency
Россия
Дата-центры внутри страны
Прод, DR, логи, бэкапы, биллинг — каждый байт физически в Российской Федерации. Без трансграничной передачи, без зарубежных реплик.
Москва
Россия
- Power
- 2N питание · N+1 охлаждение
- Network
- Dual-uplink 100 GbE · BGP multi-homed
- Compliance
- Uptime Institute · 152-ФЗ · реестр Роскомнадзора
Санкт-Петербург
Россия
- Power
- 2N+1 питание · чиллеры freecooling
- Network
- Dark fiber · < 30 мс до Москвы
- Compliance
- Репликация в реальном времени · ежедневные бэкапы
Три тира инференса. Один API.
От моделей с триллионом параметров до эффективного флота 8B — мы запускаем весь стек внутри страны. Вы выбираете тир, который подходит вашей задержке, объёму и SLA.
NVIDIA Blackwell
B200 · GB200 NVL72
Инференс моделей с триллионом параметров
Флагман 2026 года. Двухдайная архитектура, 192 ГБ HBM3e, нативный FP4 и второй Transformer Engine. До 4× быстрее H100 на LLM-инференсе и 30× на трлн-параметровых моделях в NVL72-стойке. Жидкостное охлаждение, одно NVLink-домено на 72 GPU.
Ключевые характеристики
- 192 ГБ HBM3e · 8 ТБ/с
- 20 PFLOPS FP4 · 10 PFLOPS FP8
- NVLink 5 · 1.8 ТБ/с
- TEE-I/O · confidential compute
Типичные нагрузки
- GPT-OSS 120B · Llama 4 Behemoth
- DeepSeek V3.2 685B · Qwen 3 235B
- Кастомные модели 400B+ в FP4
Развёртывание
Выделенный 8-GPU-узел или доля NVL72-стойки · жидкостное охлаждение
NVIDIA Hopper
H200 NVL · H100
Продакшн-рабочая лошадка
Проверенная в бою Hopper-платформа: 141 ГБ HBM3e, 4.8 ТБ/с пропускной способности, до 2× инференса на Llama-class моделях относительно H100. Воздушное охлаждение — разворачивается в любой стойке. Оптимальная цена за производительность для 30–120B моделей.
Ключевые характеристики
- 141 ГБ HBM3e · 4.8 ТБ/с
- 3.96 PFLOPS FP8
- NVLink 4 · 900 ГБ/с
- Transformer Engine FP8
Типичные нагрузки
- Llama 4 Maverick · Mistral Large 3
- Claude-class · GPT-class 30–120B
- Long-context RAG · агенты
Развёртывание
Выделенный 4-GPU или 8-GPU-узел с NVLink · воздушное охлаждение
NVIDIA Ada Lovelace
L40S
Высокая пропускная способность для компактных моделей
Самый эффективный тир по цене за токен для моделей 7–32B. 48 ГБ памяти, 4-го поколения Tensor Cores с FP8 через Transformer Engine. Идеален для high-QPS чат-флотов, пайплайнов эмбеддингов и мультимодальных пре-процессоров.
Ключевые характеристики
- 48 ГБ GDDR6 · 864 ГБ/с
- 1.47 PFLOPS FP8
- Transformer Engine FP8
- Воздушное охлаждение · 350 Вт
Типичные нагрузки
- Llama 4 Scout · Qwen 3 8B/32B
- Gemma 3 12B/27B · Phi-5
- Эмбеддинги · реранкинг · чаты
Развёртывание
2-GPU и 4-GPU-узлы · PCIe Gen4 · стандартная стойка
Сравнение тиров
Цифры ниже — устойчивое состояние на выделенных 8-GPU-узлах с типичным продакшн-батчингом. Ваши числа зависят от модели, длины контекста и размера батча — мы всегда бенчмаркаем именно вашу нагрузку до коммита.
| Параметр | Blackwell B200 | Hopper H200 | Ada L40S |
|---|---|---|---|
| Память GPU | 192 ГБ HBM3e | 141 ГБ HBM3e | 48 ГБ GDDR6 |
| Пропускная способность памяти | 8.0 ТБ/с | 4.8 ТБ/с | 864 ГБ/с |
| Пиковый FP8 | 10 PFLOPS | 3.96 PFLOPS | 1.47 PFLOPS |
| Пиковый FP4 | 20 PFLOPS | — | — |
| Interconnect | NVLink 5 · 1.8 ТБ/с | NVLink 4 · 900 ГБ/с | PCIe Gen4 · 64 ГБ/с |
| TDP / охлаждение | 1000 Вт · жидкостное | 700 Вт · воздушное | 350 Вт · воздушное |
| Оптимальный размер модели | 70B–1T+ | 30B–120B | 7B–32B |
| Токены/с · 70B FP4/FP8 | ~8 000 (FP4) | ~2 000 (FP8) | — |
| Токены/с · 13B FP8 | ~24 000 | ~9 000 | ~3 200 |
| Конкурентные потоки · 70B | 64–128 | 32–48 | — |
| RPS чата (p95 < 500 мс) | 40–80 | 20–30 | 30–60 |
| Задержка первого токена (70B, p50) | ~180 мс | ~240 мс | — |
| Confidential compute (TEE-I/O) | Да | — | — |
| Цена инференса · 70B класс | от $0.12 / $0.36 за 1M | от $0.20 / $0.60 за 1M | — |
| Цена инференса · 8–13B класс | — | от $0.10 / $0.30 за 1M | от $0.05 / $0.15 за 1M |
Цены указаны в формате input/output за 1M токенов для резервированной выделенной ёмкости. Проксированные модели от внешних провайдеров тарифицируются по их прайс-листу без нашей наценки — см. страницу цен.
Выделенное железо. Без мультитенантности.
Корпоративные клиенты получают физически изолированный пул GPU — не долю общего API. Ваши веса, KV-кеш, логи и метрики живут только на том железе, которое назначено именно вашему тенанту.
Физическая изоляция GPU
Именованные GPU и узлы привязаны к вашему тенанту. Никаких общих очередей инференса. Никаких скачков задержки от «шумных соседей».
TEE-I/O на Blackwell
Trusted Execution Environment I/O шифрует веса и промпты с почти нулевой потерей производительности. Для регулируемых нагрузок — финансы, медицина, госсектор.
Веса остаются на вашем узле
Ваши fine-tune, LoRA-адаптеры и KV-кеш никогда не покидают назначенные GPU. Нет кросс-тенантного пулинга кеша.
Per-tenant VLAN · приватные эндпоинты
Опциональная VLAN-изоляция на тенант, приватные эндпоинты, IP allowlist. Трафик не пересекает границы тенантов внутри стойки.
Tenant KMS envelope
Ключи шифрования дисков, session tokens и API-ключевой материал упакованы envelope-шифрованием per-tenant в HSM-бэкнутом KMS.
Per-tenant audit trail
Неизменяемые логи на каждого тенанта. Экспорт в SIEM через webhook или S3. Политика хранения настраивается под вашего регулятора.
Суверенитет данных от начала до конца
Ваши данные не покидают Россию. Ни для обучения, ни для логирования, ни для сверки биллинга.
Вся инфраструктура внутри страны
Прод, DR, логи, метрики, бэкапы, API-шлюз — каждый байт физически в российских ЦОДах.
Соответствие 152-ФЗ
Оператор персональных данных в реестре Роскомнадзора. Метки регуляторного контекста per-request. DPA со всеми корпоративными клиентами.
Биллинг в рублях
Учёт в микродолларах с инвойсами в рублях. Банковский перевод, НДС-совместимые счета, без трансграничных платёжных потоков.
Русскоязычная поддержка 24/7
Именованный SRE на дежурстве в Москве. 15-минутный отклик на P1. Прямой канал в Telegram для корпоративных клиентов.
Зарезервируйте выделенные GPU под свою нагрузку
Мы бенчмаркаем вашу модель и паттерн трафика на каждом тире — и резервируем правильный микс под ваш SLA и бюджет.