ГПБ-ИТ1
Программисты Habr Career 8 июн. 2026 г.

Специалист поддержки SL2

ГПБ-ИТ1 СНГ / Россия Офис
По договоренности
Зарплата
По договоренности
Локация
СНГ / Россия
Формат
Офис
Источник
Habr Career

О компании и проекте

Мы — команда IT-специалистов, работающая над проектами крупного российского банка. Наша задача — создание инструментов и процессов для единой платформы разработки, развертывания и эксплуатации решений на основе больших языковых моделей (LLM), а также агентской платформы для работы с ИИ-агентами.

Проект направлен на переход от пилотных решений к промышленному внедрению ИИ с централизацией управления безопасностью, качеством и стоимостью. Архитектура платформы четырёхуровневая: инфраструктурный слой (GPU-кластер), слой оркестрации и LLMOps, слой знаний (RAG), агентская платформа. Инфраструктура использует АС «Суперкомпьютер».

Задачи

Поддержка ML-платформы и Kubernetes (основной фокус)

Эксплуатация платформы:

  • Мониторинг состояния сервисов инференса в Kubernetes (доступность подов, потребление ресурсов, перезапуски).
  • Диагностика проблем с запуском контейнеров моделей (ошибки инициализации, нехватка памяти, проблемы с зависимостями).

Мониторинг и инциденты:

  • Настройка дашбордов для отслеживания метрик качества сервисов.
  • Первичная реакция на инциденты: сбор логов, анализ трассировок, эскалация разработчикам (L3), если проблема не решена за 15–30 минут.
  • Анализ причин деградации производительности моделей (дрейф данных, проблемы инфраструктуры).

Поддержка пользователей (Data Scientists / разработчики):

  • Консультирование по использованию API платформы для деплоя и управления моделями.
  • Обучение работе с инструментами (CLI, SDK, веб-интерфейс).
  • Создание инструкций и FAQ по типовым задачам развертывания.

Безопасность и доступы:

  • Управление доступом к функциям платформы согласно политикам безопасности.
  • Контроль соблюдения регламентов при работе с данными.

Поддержка векторной БД Milvus (опционально)

Управление доступом:

  • Создание баз данных и ролей в Milvus, назначение прав.

Мониторинг Milvus:

  • Поддержка дашбордов Grafana (метрики: задержка поиска, загрузка CPU узлов query, использование диска, статус лидера etcd, отставание Kafka).
  • Реагирование на алерты:
    • Критические: остановка узлов, потеря лидера etcd, свободное место на диске < 10%.
    • Предупреждения: задержка поиска > 5 с, лаг Kafka > 1000.

Требования

  • Опыт использования Kubernetes (диагностика подов, работа с kubectl, понимание networking и storage).
  • Понимание принципов работы ML-моделей (инференс, API моделей, форматы данных).
  • Опыт настройки мониторинга и алертинга (Prometheus, Grafana, ELK).
  • Навыки скриптования (Python или Bash) для автоматизации рутинных задач.
  • Умение работать с пользователями и писать техническую документацию.

Условия

  • Официальное трудоустройство по ТК РФ в аккредитованной IT-компании, полностью белая заработная плата.
  • Гибридный формат работы, офис у метро Павелецкая.
  • ДМС после испытательного срока.
  • Другие корпоративные преимущества для сотрудников.

Эта вакансия размещена на стороннем сайте. Отклик нужно сделать там.

Откликнуться на Habr Career

Вы перейдёте на внешний сайт

Стек технологий

KubernetesPrometheusGrafana