Специалист поддержки SL2
О компании и проекте
Мы — команда IT-специалистов, работающая над проектами крупного российского банка. Наша задача — создание инструментов и процессов для единой платформы разработки, развертывания и эксплуатации решений на основе больших языковых моделей (LLM), а также агентской платформы для работы с ИИ-агентами.
Проект направлен на переход от пилотных решений к промышленному внедрению ИИ с централизацией управления безопасностью, качеством и стоимостью. Архитектура платформы четырёхуровневая: инфраструктурный слой (GPU-кластер), слой оркестрации и LLMOps, слой знаний (RAG), агентская платформа. Инфраструктура использует АС «Суперкомпьютер».
Задачи
Поддержка ML-платформы и Kubernetes (основной фокус)
Эксплуатация платформы:
- Мониторинг состояния сервисов инференса в Kubernetes (доступность подов, потребление ресурсов, перезапуски).
- Диагностика проблем с запуском контейнеров моделей (ошибки инициализации, нехватка памяти, проблемы с зависимостями).
Мониторинг и инциденты:
- Настройка дашбордов для отслеживания метрик качества сервисов.
- Первичная реакция на инциденты: сбор логов, анализ трассировок, эскалация разработчикам (L3), если проблема не решена за 15–30 минут.
- Анализ причин деградации производительности моделей (дрейф данных, проблемы инфраструктуры).
Поддержка пользователей (Data Scientists / разработчики):
- Консультирование по использованию API платформы для деплоя и управления моделями.
- Обучение работе с инструментами (CLI, SDK, веб-интерфейс).
- Создание инструкций и FAQ по типовым задачам развертывания.
Безопасность и доступы:
- Управление доступом к функциям платформы согласно политикам безопасности.
- Контроль соблюдения регламентов при работе с данными.
Поддержка векторной БД Milvus (опционально)
Управление доступом:
- Создание баз данных и ролей в Milvus, назначение прав.
Мониторинг Milvus:
- Поддержка дашбордов Grafana (метрики: задержка поиска, загрузка CPU узлов query, использование диска, статус лидера etcd, отставание Kafka).
- Реагирование на алерты:
- Критические: остановка узлов, потеря лидера etcd, свободное место на диске < 10%.
- Предупреждения: задержка поиска > 5 с, лаг Kafka > 1000.
Требования
- Опыт использования Kubernetes (диагностика подов, работа с kubectl, понимание networking и storage).
- Понимание принципов работы ML-моделей (инференс, API моделей, форматы данных).
- Опыт настройки мониторинга и алертинга (Prometheus, Grafana, ELK).
- Навыки скриптования (Python или Bash) для автоматизации рутинных задач.
- Умение работать с пользователями и писать техническую документацию.
Условия
- Официальное трудоустройство по ТК РФ в аккредитованной IT-компании, полностью белая заработная плата.
- Гибридный формат работы, офис у метро Павелецкая.
- ДМС после испытательного срока.
- Другие корпоративные преимущества для сотрудников.
Эта вакансия размещена на стороннем сайте. Отклик нужно сделать там.
Откликнуться на Habr CareerВы перейдёте на внешний сайт