Aufgaben
Du entwickelst und betreibst automatisierte CI/CD-Pipelines für AI- und ML-Anwendungen damit KI-Use-Cases schnell stabil und zuverlässig produktiv gehen. Dabei arbeitest du mit GitHub GitOps-Ansätzen sowie moderner Container-Orchestrierung.
Für AI-Workloads konzipierst und implementierst du skalierbare Cloud-Infrastrukturen - inklusive GPU-fähiger Umgebungen Datenpipelines und Compute-Ressourcen - konsequent umgesetzt mit Infrastructure as Code (z. B. Terraform Crossplane oder OpenTofu).
Du stellst den stabilen Betrieb der AI/ML-Infrastruktur sicher und sorgst mithilfe von Observability-Lösungen wie Datadog Azure Monitor Prometheus oder Grafana für hohe Verfügbarkeit und Performance.
In enger Zusammenarbeit mit AI-Teams und dem Central Cloud & Infrastructure Team übersetzt du fachliche Anforderungen in tragfähige Plattformlösungen und setzt gemeinsame Standards und Best Practices um.
Sicherheits- Governance- und Compliance-Anforderungen für AI-Anwendungen hast du dabei ebenso im Blick wie die kontinuierliche Optimierung von - Cloud-Kosten für rechenintensive Workloads.
Eine saubere Dokumentation deiner Lösungen sorgt für Transparenz Wissenstransfer und reibungslose Zusammenarbeit.
English Version:
You design and operate automated CI/CD pipelines for AI and ML applications enabling fast stable and reliable deployment of AI use cases using GitHub GitOps practices and modern container orchestration.
For AI workloads you build scalable cloud infrastructures including GPU-enabled environments resilient data pipelines and flexible compute resources consistently implemented through Infrastructure as Code with tools such as Terraform Crossplane or OpenTofu.
You ensure the stable operation of AI/ML platforms by monitoring availability and performance and by implementing observability solutions like Datadog Azure Monitor Prometheus or Grafana for both application-level and ML-specific metrics.
Working closely with AI teams you translate technical requirements into robust platform solutions while aligning with the Central Cloud & Infrastructure team on shared services standards and best practices.
Security governance and compliance are integral to your work. You implement secure data handling access controls and AI-specific compliance requirements across the platform.
You actively optimize cloud costs for compute-intensive AI workloads through continuous monitoring and resource optimization leveraging tools such as Azure Cost Management.
Clear and structured documentation of processes infrastructure configurations and deployment procedures supports transparency collaboration and knowledge sharing across the AI Central Team and the wider infrastructure organization.
Anforderungen
Du hast ein abgeschlossenes Masterstudium in Informatik Data Science Cloud Computing oder einer vergleichbaren Fachrichtung.
Mehrjährige Erfahrung im Cloud Platform Engineering MLOps oder im Betrieb von AI/ML-Plattformen bringst du ebenso mit wie fundierte Kenntnisse in CI/CD Infrastructure as Code und Cloud-Plattformen wie Azure AWS oder GCP.
Der Umgang mit Docker Kubernetes GitOps-Methodiken sowie Monitoring- und Observability-Tools ist für dich selbstverständlich.
Du verstehst die besonderen Anforderungen von AI- und ML-Infrastrukturen etwa im Bereich GPU-Compute Datenpipelines und Modellbereitstellung.
Eine strukturierte teamübergreifende Arbeitsweise gute Kommunikationsfähigkeiten sowie Programmier- oder Skriptkenntnisse (z. B. Python oder Bash) runden dein Profil ab.
Was dich antreibt ist deine Begeisterung für moderne AI-Infrastruktur ein proaktives Mindset und Freude an technologischer Weiterentwicklung.
English Version:
You hold a masters degree in Computer Science Data Science Cloud Computing or a comparable technical field.
Several years of professional experience in cloud platform engineering MLOps or operating AI/ML platforms form a strong foundation for your work.
You bring solid expertise in building and automating CI/CD pipelines using tools such as GitHub Actions Azure DevOps or similar platforms.
Infrastructure as Code is second nature to you and you are confident working with Terraform Crossplane or OpenTofu across cloud platforms like Azure AWS or GCP.
Hands-on experience with Docker Kubernetes and GitOps methodologies is part of your everyday toolkit.
You are familiar with monitoring and observability solutions for cloud and AI platforms including Datadog Prometheus Grafana or Azure Monitor.
A good understanding of AI/ML infrastructure requirements such as GPU compute data pipelines and model deployment patterns rounds out your technical profile.
You communicate clearly collaborate effectively across teams and are able to bridge the gap between AI and infrastructure requirements.
Programming or scripting skills in Python Bash or similar languages support your automation and tooling work.
What drives you is a passion for modern AI infrastructure a proactive mindset and the motivation to continuously improve and innovate.
Zusatzinformationen
enercity sucht einen Cloud & MLOps Expert (w/m/d) der die technologische Basis für skalierbare sichere und leistungsfähige KI-Systeme im gesamten Unternehmen gestaltet.Telefon:
E-Mail:
enercity bietet Strom und Gas für ganz Deutschland sowie Wasser, Solar, Wärme und mehr als Energieversorger für Hannover und die Region.