DevOps Engineer (AI Infrastructure)
02 Июня 2026
Город:
Астана
Занятость:
Полная занятость
Компания "Armeta KZ"
Основные обязанности
-
Проектировать, строить и поддерживать высокодоступную on-premise инфраструктуру на базе Kubernetes и bare-metal (включая суперкомпьютеры и системы NVIDIA DGX).
-
Разрабатывать и поддерживать надёжные CI/CD-пайплайны (например, GitLab CI, Jenkins) для автоматической сборки, тестирования и деплоя всех сервисов.
-
Управлять развёртыванием, масштабированием и эксплуатацией основного технологического стека, включая:
-
Бэкенд-микросервисы (FastAPI).
-
AI мульти-агентные системы и платформы для LLM-serving.
-
Кластеры распределённых вычислений (в частности Ray).
-
Системы объектного хранилища (в частности Minio).
-
-
Внедрять и поддерживать комплексные решения для мониторинга, логирования и алертинга (например, Prometheus, Grafana, ELK/Loki) для обеспечения здоровья и производительности систем.
-
Управлять оборудованием NVIDIA DGX, включая GPU-драйверы, CUDA и высокопроизводительные сети (например, Infiniband).
-
Автоматизировать развёртывание инфраструктуры и управление конфигурациями с помощью IaC-инструментов (например, Ansible, Terraform).
-
Тесно работать с AI- и Backend-командами, обеспечивая плавный и надёжный путь от R&D до продакшена.
-
Внедрять и поддерживать практики безопасности для on-premise среды, включая сетевые политики, контроль доступа и управление уязвимостями.
Требования
-
1+ год практического опыта в DevOps, SRE или аналогичной роли.
-
Экспертный уровень владения Kubernetes (K8s) и контейнерной экосистемой (Docker).
-
Подтверждённый опыт администрирования on-premise bare-metal серверных сред. Опыт работы с публичными облаками (AWS, GCP) будет плюсом, но on-premise экспертиза обязательна.
-
Сильный опыт работы с CI/CD-инструментами (например, GitLab CI, Jenkins, GitHub Actions).
-
Сильный опыт работы с инструментами Infrastructure as Code (IaC) (особенно Ansible, Terraform).
-
Глубокое понимание сетевых принципов (TCP/IP, балансировка нагрузки, файрволы, VPC).
-
Уверенное владение скриптингом и автоматизацией (например, Python, Bash).
-
Опыт работы со стэками мониторинга и логирования (например, Prometheus, Grafana).
Будет плюсом
-
Сильный опыт работы с MLOps-инструментами и платформами (например, KubeFlow, MLflow, Seldon Core, KServe).
-
Практический опыт управления NVIDIA GPU, CUDA и NVIDIA GPU Operator для K8s.
-
Прямой опыт развёртывания и эксплуатации Ray-кластеров.
-
Прямой опыт развёртывания и эксплуатации Minio-кластеров.
-
Опыт работы с высокопроизводительными сетями (например, Infiniband).
-
Опыт работы с распределёнными системами хранения (например, Ceph).
Зарегистрируйтесь или войдите, чтобы открыть контакты работодателя
Прикрепите резюме для отклика
Уже с нами?
Войдите, чтобы отправить резюме
30 Мая
Senior Software Engineer (Gameplay)
Астана
Компания "Playrix" Playrix — одна из самых успешных компаний по разработке мобильных игр в мире. По доходам среди всех мобильных приложений мы...
30 Мая
Senior Software Engineer С++ (Gameplay)
Астана
Компания "Playrix" Playrix — одна из самых успешных компаний по разработке мобильных игр в мире. По доходам среди всех мобильных приложений мы...
30 Мая
Инженер-тестировщик (QA engineer)
Астана
Компания "NTS design" NTS Design - мы Казахстанская компания по разработке и производству электронных устройств в сфере безопасности. Мы...
30 Мая
Астана
Компания "Adviva" Обязанности: Проводить функциональное, интеграционное, регрессионное тестирование и UI тестирование. Проводить...
30 Мая
Астана
Компания "Itransition" We are looking for experienced automation engineers who are willing to solve complex technical challenges while building...
Вакансия размещена в отрасли