مشروع التخرج: منصة إنتاج بمستوى الشركات الكبرى

الموثوقية: ممارسة SRE والتعافي من الكوارث

18 دقيقة الدرس 8 من 30

الموثوقية: ممارسة SRE والتعافي من الكوارث

الموثوقية ليست خاصية تُبنى مرة واحدة؛ بل هي انضباط تشغيلي مستمر. بحلول الوقت الذي يصل فيه نظامك إلى الأحمال الإنتاجية الفعلية، تكون طبقات Kubernetes وTerraform وObservability الخاصة بك قد تهيأت من الدروس السابقة. يتناول هذا الدرس كيفية تشغيل المنصة بعد أن تصبح حية: هيكلة المناوبة بحيث تتوسع دون إرهاق المهندسين، واستخدام ميزانية الأخطاء أداةً للقرار الهندسي، وتصميم طبقات التعافي من الكوارث بدقة، ثم إثبات صحة هذه الطبقات من خلال التدريبات الميدانية.

تصميم المناوبة على المقياس الكبير

النمط الأكثر شيوعاً للفشل في فرق المنصات المتنامية هو مناوبة مسطحة تتلقى كل تنبيه. في غضون ستة أشهر، يكون كل مهندس في الدوران قد استُدعي في الساعة الثانية صباحاً بسبب مقياس جانبي مضطرب أطلق 40 تنبيهاً دون أن يُحدث أي تأثير حقيقي على المستخدم. يتوقف المستجيبون عن الاكتراث، وتتحول التنبيهات إلى ضجيج، والضجيج يُخفي الحوادث الحقيقية.

البنية التي تُثبت نجاعتها هي المناوبة متعددة الطبقات مع حدود ملكية صارمة:

الطبقة الأولى — مناوبة المنصة (البنية التحتية): تمتلك مستوى البيانات: صحة عُقد Kubernetes، والشبكات، والتخزين، وتوسّع المجموعة التلقائي، وصلاحية الشهادات. تحمل SLA مدته 15 دقيقة للإقرار بحوادث P1. عادةً دوران أسبوعي من 5-7 أشخاص عبر مناطق زمنية مختلفة. لا تصدر تنبيهات إلا على أعراض ثابتة التأثير على حركة المرور الفعلية.
الطبقة الثانية — مناوبة الخدمة (لكل فريق): كل فريق منتج يمتلك مناوبة خدماته الخاصة. يتم استدعاؤهم عبر توجيهات Alertmanager المحددة بنطاق namespace الخاص بهم، ولا يُصعّدون إلى الطبقة الأولى إلا عندما يكون الجذر في البنية التحتية للمنصة وليس في كود التطبيق.
الطبقة الثالثة — تصعيد الإدارة: تصعيد آلي بعد 30 دقيقة من عدم الإقرار بحادث P0 من الطبقتين الأولى والثانية. تتولى سياسات التصعيد في PagerDuty هذا دون تدخل بشري.

جودة التنبيه هي جوهر الأمر كله. كل تنبيه في الدوران يجب أن يجتاز "اختبار الساعة الثانية صباحاً": إذا استدعى شخصاً في الساعة الثانية صباحاً، هل يوجد كتيب تشغيل؟ هل الإجراء قابل للتنفيذ خلال 10 دقائق؟ وهل مثّل ضرراً حقيقياً للمستخدم في آخر 90 يوماً؟ التنبيهات التي تفشل هذا الاختبار إما تُكتم، أو تُحوّل إلى إشعارات يومية موجزة، أو تُحذف.

استخدم تنبيهات متعددة النوافذ ومتعددة معدلات الحرق لـ SLOs. معدل حرق 14× لميزانيتك خلال ساعة واحدة يعني أنك ستستنفد ميزانية الشهر في 3 ساعات. معدل حرق 1× خلال 6 ساعات هو تسريب بطيء يستحق تذكرة عمل لكنه لا يستدعي استدعاء أحد. قواعد Alertmanager التي تُطلق التنبيه فقط عند ارتفاع معدل الحرق تُزيل الغالبية العظمى من الإيجابيات الكاذبة العابرة.

# Alertmanager: تنبيه SLO متعدد معدلات الحرق (PrometheusRule)
apiVersion: monitoring.coreos.com/v1
kind: PrometheusRule
metadata:
  name: slo-payment-api
  namespace: monitoring
spec:
  groups:
  - name: slo.payment-api.burnrate
    rules:
    # حرق سريع — استدعاء فوري (2% من الميزانية في ساعة واحدة)
    - alert: PaymentAPIFastBurn
      expr: |
        (
          rate(http_requests_total{job="payment-api",code=~"5.."}[1h])
          /
          rate(http_requests_total{job="payment-api"}[1h])
        ) > (14 * 0.001)
        and
        (
          rate(http_requests_total{job="payment-api",code=~"5.."}[5m])
          /
          rate(http_requests_total{job="payment-api"}[5m])
        ) > (14 * 0.001)
      for: 2m
      labels:
        severity: critical
        team: payments
      annotations:
        summary: "Payment API fast error-budget burn"
        runbook: "https://runbooks.internal/payment-api/high-error-rate"
    # حرق بطيء — تذكرة عمل (10% من الميزانية في 3 أيام)
    - alert: PaymentAPISlowBurn
      expr: |
        (
          rate(http_requests_total{job="payment-api",code=~"5.."}[6h])
          /
          rate(http_requests_total{job="payment-api"}[6h])
        ) > (1 * 0.001)
      for: 60m
      labels:
        severity: warning
        team: payments
      annotations:
        summary: "Payment API slow error-budget burn"

ميزانية الأخطاء كأداة هندسية

SLO بدون ميزانية أخطاء مجرد مقياس. SLO مع ميزانية أخطاء هو محرك قرار. تُجيب ميزانية الأخطاء على سؤال واحد في كل نقاش هندسي: هل لدينا مساحة كافية من الموثوقية لشحن هذا التغيير، أم يجب أن نستثمر أولاً في الموثوقية؟

الآليات التشغيلية التي تجعل ميزانيات الأخطاء تعمل فعلياً:

القياس من جانب العميل، ليس الخادم. المقاييس من جانب الخادم تُغفل أعطال DNS وأخطاء CDN وانقطاع TCP في شبكات الجوال. مصدر الحقيقة الرسمي لقياس SLO هو المراقبة الاصطناعية مقترنة ببيانات Real User Monitoring من الواجهة الأمامية.
الميزانية مشتركة عبر جميع أسباب الأعطال. حادثة ناجمة عن تطبيق Terraform خاطئ وحادثة ناجمة عن انقطاع مزود DNS تستنزفان نفس الميزانية. هذا مقصود؛ يمنع الفرق من الجدال حول اللوم ويُركّز الطاقة على تقليل جميع أسباب عدم التوفر.
سياسة الميزانية وثيقة مكتوبة تُراجع كل ثلاثة أشهر. يجب أن تُجيب السياسة: عندما تنخفض الميزانية إلى أقل من 10%، ماذا يتغير؟ في Google الجواب: جميع إصدارات الميزات لتلك الخدمة تتطلب موافقة SRE؛ أعمال الموثوقية تأخذ أولوية على أعمال الميزات. بدون سياسة مكتوبة مُطبّقة، تصبح ميزانيات الأخطاء مسرحاً لا أكثر.
تتبع استهلاك الميزانية على مستوى السبرينت. لوحة Grafana تُظهر معدل حرق الميزانية على مدى 28 يوماً لكل خدمة، مرئية لكل من SREs ومديري المنتج، هي الأداة الأكثر فعالية للتوافق.

تنبيهات ميزانية الأخطاء ≠ تنبيهات الحوادث. اضبط ملخصاً أسبوعياً على Slack يعرض استهلاك ميزانية كل خدمة للأيام السبعة الماضية. احتفظ بالاستدعاءات لعتبات معدل الحرق فحسب. خلط إشعارات تتبع الميزانية مع صفحات الحوادث يجعل المستجيبين يتجاهلون الاثنين معاً.

تصميم طبقات التعافي من الكوارث

اختيار طبقة DR هو توازن بين التكلفة والاسترداد، يُعبّر عنه برقمين: RTO (هدف وقت الاسترداد — كم من الوقت حتى تُستعاد الخدمة) وRPO (هدف نقطة الاسترداد — ما مقدار فقدان البيانات المقبول). في شركات التقنية الكبرى، لكل خدمة إجاباتها المختلفة، ويجب أن تدعم المنصة جميعها.

مقارنة طبقات DR حسب RTO وRPO والتكلفة النسبية — معظم المنصات تُشغّل Tier 0 للمدفوعات، وTier 1 للـ APIs الأساسية، وTier 2/3 للأدوات الداخلية.

الفكرة الجوهرية هي أن ليس كل خدمة تحتاج Tier 0. خدمة معالجة المدفوعات وخدمة المصادقة تستحق Active-Active متعددة المناطق. لوحة التحليلات الداخلية ولوحة الإدارة لا تحتاج ذلك. تطبيق Tier 0 بشكل موحد يضاعف الإنفاق على البنية التحتية دون أي فائدة للمستخدم في حالة الأعباء منخفضة الأهمية. احتفظ بـسجل أهمية الخدمات — جدول بيانات أو صفحة Confluence تُحدَّث كل ثلاثة أشهر — يربط كل خدمة بطبقة DR ويسجّل المبرر التجاري. بدون هذا السجل، تنجرف قرارات طبقة DR وفق تفضيلات المهندسين لا متطلبات العمل.

التدريبات الميدانية: إثبات أن خطة DR حقيقية

خطة DR لم تُنفَّذ قط تحت الضغط هي مجرد وثيقة خيالية. التدريبات الميدانية هي الانضباط الهندسي المتمثل في تشغيل سيناريوهات أعطال متحكَّم بها في بيئة الإنتاج للتحقق من صحة ادعاءات RTO وRPO.

هيكل برنامج التدريبات الميدانية في شركات التقنية الكبرى:

تجاوز DR كامل فصلياً: محاكاة فقدان منطقة كاملة. قطع حركة المرور عن المنطقة الأساسية، وترقية النسخة الاحتياطية لـ Aurora، والتحقق من أن جميع الخدمات تبدأ في منطقة DR ضمن RTO المُحدد، وقياس فقدان البيانات الفعلي مقابل هدف RPO.
تجارب الفوضى الشهرية: نطاق أضيق. اقتل pod عشوائياً في namespace حرجة، أو أضف تأخيراً 200 مللي ثانية على اتصالات خدمة المدفوعات الصادرة. استخدم Chaos Mesh أو AWS Fault Injection Simulator. الغلق يجب أن يكون محدوداً — حدّد فرضية الحالة الطبيعية، أدخل الخلل، لاحظ، واسترجع في غضون 30 دقيقة.
اختبار أعطال اصطناعية أسبوعياً على Staging: آلي وبدون مراقبة بشرية. اختبار k6 للتحميل مقترن بحقن أعطال مكتوبة. نتيجة نجاح/فشل تُرسل إلى Slack. يمنع الانحدار بين التدريبات الميدانية.

# Chaos Mesh — حقن تأخير 200 مللي ثانية على حركة المرور الصادرة من خدمة المدفوعات
apiVersion: chaos-mesh.org/v1alpha1
kind: NetworkChaos
metadata:
  name: payment-egress-latency
  namespace: chaos-engineering
spec:
  action: delay
  mode: all
  selector:
    namespaces:
      - payments
    labelSelectors:
      app: payment-api
  delay:
    latency: "200ms"
    correlation: "25"
    jitter: "50ms"
  direction: egress
  duration: "10m"
---
# اختبار تحميل k6 لمراقبة سلوك SLO أثناء التجربة
import http from 'k6/http';
import { check, sleep } from 'k6';
import { Rate } from 'k6/metrics';

const errorRate = new Rate('errors');

export const options = {
  stages: [
    { duration: '2m', target: 200 },
    { duration: '6m', target: 200 },
    { duration: '2m', target: 0 },
  ],
  thresholds: {
    http_req_duration: ['p(99)<600'],
    errors: ['rate<0.001'],
  },
};

export default function () {
  const res = http.post(
    `${__ENV.BASE_URL}/v1/payments/validate`,
    JSON.stringify({ amount: 1000, currency: 'USD' }),
    { headers: { 'Content-Type': 'application/json' } }
  );
  errorRate.add(res.status !== 200);
  check(res, { 'status 200': (r) => r.status === 200 });
  sleep(0.5);
}

عملية ما بعد التدريب الميداني: كل تدريب ميداني يُنتج تقريراً مكتوباً في غضون 24 ساعة. يتضمن التقرير فرضية الحالة الطبيعية، وما أُدخل من أعطال، وما لوحظ، وما إذا تحقق RTO/RPO، وبنود العمل. بنود العمل الناجمة عن التدريبات الميدانية هي أعمال موثوقية، وتحتل الأولوية في السبرينت التالي وفق سياسة ميزانية الأخطاء. هذه هي حلقة التغذية الراجعة التي تجعل المنصة أكثر موثوقية بشكل قابل للقياس بمرور الوقت.

لا تُجرِ تجارب الفوضى أبداً بدون مالك صريح وخطة استرجاع مكتوبة في الغرفة. حقن فوضى سيء النطاق في Twitch عام 2021 قتل وسيط Kafka في namespace Kubernetes خاطئة — كانت namespace "staging" مدعومة بنفس مجموعة الوسيط المادي المستخدمة في الإنتاج. كان نطاق التضرر انقطاعاً جزئياً لمدة 45 دقيقة أثّر في استيعاب البث المباشر. حدّد التجارب بـ namespaces معزولة؛ تحقق من تعيينات namespace إلى البنية التحتية قبل حقن الأعطال؛ واعمل دائماً مع شخص يملك صلاحية الاسترجاع ويراقب لوحة البيانات في الوقت الفعلي.

دولاب الموثوقية المتسارع

المناوبة، وميزانيات الأخطاء، وطبقات DR، والتدريبات الميدانية ليست ممارسات مستقلة. إنها تشكّل دولاباً متسارعاً: التدريبات الميدانية تكشف فجوات الموثوقية التي تستنزف ميزانية الأخطاء؛ سياسة الميزانية تحوّل هذه الفجوات إلى أعمال في السبرينت؛ هذا العمل يُحسّن جودة التنبيهات وثقة DR؛ التنبيهات الأفضل تجعل المناوبة مستدامة؛ فريق المناوبة المستدام يُجري تدريبات ميدانية أفضل. فريق المنصة الذي يُدير هذه الحلقة فصلياً يصبح أكثر موثوقية بشكل قابل للقياس كل 90 يوماً.