1IT.RU
Первый · ИТ · Альянс
Перейти к основному содержимому
1IT.RU
К списку материалов
ИИ
2 апреля 2026 г. 9 мин чтения

MLOps на собственных серверах: стек для on-prem AI в РФ

Когда облако невозможно — поднимаем AI-стек на своих серверах. Готовая референсная архитектура 1IT для российских компаний.

MLOps on-prem Kubernetes vLLM

Финансовый сектор, медицина, госкомпании часто не могут отправлять данные в облачные LLM. Решение — on-prem развёртывание с локальными моделями уровня Qwen 2.5-72B, Saiga, GigaChat MAX (приватный контур). 1IT собирает MLOps-стек на отечественном железе и Astra Linux.

Базовая архитектура

  • Kubernetes (Deckhouse, Astra K8s) для оркестрации.
  • GPU-ноды с NVIDIA H100/A100 или совместимым железом.
  • vLLM или TensorRT-LLM для инференса с continuous batching.
  • MLflow для трекинга экспериментов и реестра моделей.
  • Prometheus + Grafana для мониторинга.

Серверная подсистема

Минимальная конфигурация для пилота — 2 ноды по 8x H100 80GB или 8x A100 80GB. Для модели 70B параметров в FP8 нужна 1 нода, для FP16 — 2 ноды. Сеть InfiniBand или RoCE для обмена тензорами при tensor parallelism.

CI/CD моделей

  1. Эксперимент: трекинг через MLflow с версионированием датасета.
  2. Валидация: автотесты на golden set + замер бенчмарков.
  3. Регистрация: модель в реестре с тегами и метаданными.
  4. Канареечный деплой: 5% трафика на новую модель.
  5. Полный rollout после прохождения SLO.
  6. Откат за 30 секунд при деградации.

Мониторинг качества

Помимо технических метрик (latency, throughput, GPU utilization) обязателен мониторинг качества: drift по эмбеддингам, faithfulness ответов, доля сработок safety-фильтров. Деградация качества — повод для перетренировки или fine-tuning.

Частые вопросы

Какие LLM можно развернуть on-prem в РФ?+

Открытые: Qwen 2.5, Llama 3.1, Saiga, T-pro. Коммерческие: GigaChat MAX в приватном контуре, YandexGPT через Yandex Cloud Private.

Сколько времени на развёртывание?+

От первого сервера до продакшен-готовности — 6–12 недель. 1IT проводит пилот, нагрузочные тесты, передачу в эксплуатацию с регламентами.

Что с импортным железом и санкциями?+

Доступ к H100 ограничен, но решается параллельным импортом или альтернативами (китайские GPU, отечественные ускорители на горизонте). Обсуждаем варианты под бюджет.

Нужна помощь по этой теме?

Обсудим задачу и предложим план за 24 часа. Работаем с компаниями из России и СНГ с 1999 года.

Реквизиты

ООО «Первый ИТ Альянс»

Юридический адрес
115280, г. Москва, ул. Ленинская Слобода, д. 9
Почтовый адрес
115280, г. Москва, ул. Ленинская Слобода, д. 9
ИНН / КПП
7725532894 / 7725010011
Банк
АО «АЛЬФА-БАНК»
Расчётный счёт
40702810302390002958
Корреспондентский счёт
30101810200000000593
БИК
044525593
Электронная почта
info@1it.ru
Генеральный директор
Афанасьев Дмитрий Геннадиевич
ОКВЭД
63.1118.2 · 33.20 · 47.91.2 · 47.91.3 · 61.10 · 61.10.1 · 62.01 · 62.02 · 62.02.9 · 62.09 · 63.1 · 63.11.1 · 63.11.9 · 63.12 · 71.12.1 · 73.11 · 73.20 · 95.1 · 96.0