Программисты Habr Career 24 мая 2026 г.
NLP-разработчик в Алису
Яндекс СНГ / Россия Офис
По договоренности
Зарплата
По договоренности
Локация
СНГ / Россия
Формат
Офис
Источник
Habr Career
NLP-разработчик в Алису
О нас
Мы — команда ML-исследователей и инженеров внутри Алисы. Строим первого в России автономного computer-use-агента, который умеет пользоваться компьютерными средами как человек: кликать, скроллить, заполнять формы, переключаться между приложениями и решать задачи пользователя автономно.
У нас уже есть работающий прототип в проде, платформа агентов на миллионы пользователей, GPU-кластеры, симуляторы сред и пайплайны обучения через GRPO-like-подходы. Ищем человека, который выведет RL-обучение агента на новый уровень.
Задачи
- Проектировать и запускать эксперименты по обучению агента взаимодействию с компьютерными средами.
- Придумывать и реализовывать новые RL-пайплайны: от формулировки reward-функций до архитектуры обучения на многошаговых траекториях с вызовами инструментов.
- Работать с симуляторами сред и реальными траекториями, выстраивать цикл непрерывного улучшения данных и модели (data flywheel).
- Обучать и файнтюнить большие модели, оптимизировать инференс для продакшена: FP8, дистилляция, параллелизм.
- Улучшать GUI grounding и визуальное понимание экрана (VLM-компоненты агента).
- Проектировать архитектуру агента: memory, planning, оркестрация инструментов.
- Уделять внимание аспектам безопасности и достоверности, доводить R&D-результаты до продакшена на платформе с миллионами пользователей.
Требования
- Глубокий практический опыт в DL и RL: обучали модели через GRPO, GSPO, DAPO, Dr.GRPO, понимаете нюансы reward design, знаете, почему обучение разваливается и как это исправлять.
- Опыт обучения больших моделей: файнтюнинг LLM и VLM в реальных задачах, а не по туториалам.
- Исследовательское мышление: умеете находить и критически оценивать статьи, вычленять применимые идеи и быстро проверять гипотезы.
- Способность вести задачу от постановки эксперимента до результата в проде.
- Уверенное владение Python и PyTorch.
Будет плюсом
- Опыт работы с VLM: обучение, файнтюнинг, инференс.
- Опыт в multi-turn RL на траекториях взаимодействия с инструментами и средой.
- Публикации на топ-конференциях (NeurIPS, ICML, ICLR, ACL и др.).
- Опыт в областях computer use, web agents, GUI grounding.
Эта вакансия размещена на стороннем сайте. Отклик нужно сделать там.
Откликнуться на Habr CareerВы перейдёте на внешний сайт
Стек технологий
NLP