О компании и проекте

Мы — команда IT-специалистов, работающая над проектами крупного российского банка. Наша задача — создание инструментов и процессов для единой платформы разработки, развертывания и эксплуатации решений на основе больших языковых моделей (LLM), а также агентской платформы для работы с ИИ-агентами.

Проект направлен на переход от пилотных решений к промышленному внедрению ИИ с централизацией управления безопасностью, качеством и стоимостью. Архитектура платформы четырёхуровневая: инфраструктурный слой (GPU-кластер), слой оркестрации и LLMOps, слой знаний (RAG), агентская платформа. Инфраструктура использует АС «Суперкомпьютер».

Задачи

Поддержка ML-платформы и Kubernetes (основной фокус)

Эксплуатация платформы:

Мониторинг состояния сервисов инференса в Kubernetes (доступность подов, потребление ресурсов, перезапуски).
Диагностика проблем с запуском контейнеров моделей (ошибки инициализации, нехватка памяти, проблемы с зависимостями).

Мониторинг и инциденты:

Настройка дашбордов для отслеживания метрик качества сервисов.
Первичная реакция на инциденты: сбор логов, анализ трассировок, эскалация разработчикам (L3), если проблема не решена за 15–30 минут.
Анализ причин деградации производительности моделей (дрейф данных, проблемы инфраструктуры).

Поддержка пользователей (Data Scientists / разработчики):

Консультирование по использованию API платформы для деплоя и управления моделями.
Обучение работе с инструментами (CLI, SDK, веб-интерфейс).
Создание инструкций и FAQ по типовым задачам развертывания.

Безопасность и доступы:

Управление доступом к функциям платформы согласно политикам безопасности.
Контроль соблюдения регламентов при работе с данными.

Поддержка векторной БД Milvus (опционально)

Управление доступом:

Создание баз данных и ролей в Milvus, назначение прав.

Мониторинг Milvus:

Поддержка дашбордов Grafana (метрики: задержка поиска, загрузка CPU узлов query, использование диска, статус лидера etcd, отставание Kafka).
Реагирование на алерты:
- Критические: остановка узлов, потеря лидера etcd, свободное место на диске < 10%.
- Предупреждения: задержка поиска > 5 с, лаг Kafka > 1000.

Требования

Опыт использования Kubernetes (диагностика подов, работа с kubectl, понимание networking и storage).
Понимание принципов работы ML-моделей (инференс, API моделей, форматы данных).
Опыт настройки мониторинга и алертинга (Prometheus, Grafana, ELK).
Навыки скриптования (Python или Bash) для автоматизации рутинных задач.
Умение работать с пользователями и писать техническую документацию.

Условия

Официальное трудоустройство по ТК РФ в аккредитованной IT-компании, полностью белая заработная плата.
Гибридный формат работы, офис у метро Павелецкая.
ДМС после испытательного срока.
Другие корпоративные преимущества для сотрудников.

Специалист поддержки SL2