صاحب العمل نشط
مهندس موثوقية الموقع الأول
كومة التكنولوجيا
نظام التشغيل: لينكس أوبونتو؛
خادم الويب: نجينكس؛
الرصد: جرافانا، بروميثيوس، جرايلوج، جايجر؛
CI/CD: جنكينز، جيت، جيتلاب، دوكر؛
الأتمتة: بايثون، باش؛
SCM: أنسيبل، الشيف؛
IAC: Terraform. بولومي.
قاعدة البيانات: PostgreSQL، وRedis، وKeydb، وMySQL؛
السحابة: Openstack، AWS، GCP، DO.
أمثلة على المهام الأولى في الدور:
مراجعة العمليات والمنصة والبنية التحتية؛
تنفيذ Grafana OnCall؛
مراجعة وإعادة صياغة عمليات ITSM إذا لزم الأمر.
المسؤوليات في الدور:
تحديد الاختناقات وإعداد التوصيات لتحسين موثوقية الخدمات؛
الاستجابة لحالات الطوارئ الخاصة بالمنصة، وتحديد أسباب الفشل وحلها، وتجميع تقارير ما بعد الوفاة؛
تطوير أدوات المراقبة والتنبيه لضمان التوافر العالي والكشف السريع عن المشكلات المحتملة: (Grafana، Grafana OnCall، Prometheus Alert manager، وما إلى ذلك)؛
المشاركة النشطة في عمليات إدارة التغيير، بما في ذلك تقييم وتنسيق التغييرات في البنية التحتية ضمن جلسات المجلس الاستشاري للتغيير (CAB)؛
تنفيذ ودعم عمليات ITSM لتحسين سير عمل الفريق وتحسين جودة الخدمة.
تطوير وصيانة الوثائق في حالة محدثة.
متطلبات:
أكثر من 3 سنوات من الخبرة في SRE/DevOps؛
فهم مبادئ SRE، والخبرة العملية في تنفيذ ممارسات SRE؛
فهم المبادئ والخبرة العملية في بناء أنظمة مرنة؛
خبرة في أنظمة المراقبة والتسجيل (Prometheus، Graylog، Grafana).
تجربة مع أدوات التشغيل الآلي لبناء البرامج ونشرها (CI/CD): GitLab، Jenkins؛
فهم مبادئ المحاكاة الافتراضية والحاويات؛
فهم البنية التحتية باعتبارها نهج التعليمات البرمجية (IaC) والخبرة؛
إتقان لغة برمجة لتطوير البرامج النصية للأتمتة (Python، Nodejs، Golang، وما إلى ذلك)، والقدرة على فهم رمز الخدمة؛
فهم بروتوكولات الشبكة، والطوبولوجيا، ونماذج الشبكة؛
خبرة في أدوات إدارة التكوين: Ansible, Chef؛
الخبرة الأساسية مع قواعد البيانات العلائقية، مثل PostgreSQL؛
خبرة في إدارة أنظمة التشغيل Linux؛
إتقان اللغتين الإنجليزية والروسية (الحد الأدنى B2).
كميزة:
خبرة في تنفيذ أنظمة المراقبة والتسجيل من الصفر.
تجربة مع k8s، Openstack؛
مهارات البرمجة المتقدمة في أي لغة.
دوام كامل