Яндекс
Программисты Habr Career 24 мая 2026 г.

NLP-разработчик в Алису

Яндекс СНГ / Россия Офис
По договоренности
Зарплата
По договоренности
Локация
СНГ / Россия
Формат
Офис
Источник
Habr Career

NLP-разработчик в Алису

О нас

Мы — команда ML-исследователей и инженеров внутри Алисы. Строим первого в России автономного computer-use-агента, который умеет пользоваться компьютерными средами как человек: кликать, скроллить, заполнять формы, переключаться между приложениями и решать задачи пользователя автономно.

У нас уже есть работающий прототип в проде, платформа агентов на миллионы пользователей, GPU-кластеры, симуляторы сред и пайплайны обучения через GRPO-like-подходы. Ищем человека, который выведет RL-обучение агента на новый уровень.

Задачи

  • Проектировать и запускать эксперименты по обучению агента взаимодействию с компьютерными средами.
  • Придумывать и реализовывать новые RL-пайплайны: от формулировки reward-функций до архитектуры обучения на многошаговых траекториях с вызовами инструментов.
  • Работать с симуляторами сред и реальными траекториями, выстраивать цикл непрерывного улучшения данных и модели (data flywheel).
  • Обучать и файнтюнить большие модели, оптимизировать инференс для продакшена: FP8, дистилляция, параллелизм.
  • Улучшать GUI grounding и визуальное понимание экрана (VLM-компоненты агента).
  • Проектировать архитектуру агента: memory, planning, оркестрация инструментов.
  • Уделять внимание аспектам безопасности и достоверности, доводить R&D-результаты до продакшена на платформе с миллионами пользователей.

Требования

  • Глубокий практический опыт в DL и RL: обучали модели через GRPO, GSPO, DAPO, Dr.GRPO, понимаете нюансы reward design, знаете, почему обучение разваливается и как это исправлять.
  • Опыт обучения больших моделей: файнтюнинг LLM и VLM в реальных задачах, а не по туториалам.
  • Исследовательское мышление: умеете находить и критически оценивать статьи, вычленять применимые идеи и быстро проверять гипотезы.
  • Способность вести задачу от постановки эксперимента до результата в проде.
  • Уверенное владение Python и PyTorch.

Будет плюсом

  • Опыт работы с VLM: обучение, файнтюнинг, инференс.
  • Опыт в multi-turn RL на траекториях взаимодействия с инструментами и средой.
  • Публикации на топ-конференциях (NeurIPS, ICML, ICLR, ACL и др.).
  • Опыт в областях computer use, web agents, GUI grounding.

Эта вакансия размещена на стороннем сайте. Отклик нужно сделать там.

Откликнуться на Habr Career

Вы перейдёте на внешний сайт

Стек технологий

NLP