أسس قابلية الرصد

فلسفة التنبيهات

18 دقيقة الدرس 8 من 28

فلسفة التنبيهات

التنبيه يوقظ شخصاً ما. هذا فعل جسيم. في كل مرة يُطلق فيها تنبيه في الساعة الثالثة صباحاً ويحقق مهندس المناوبة ليجد لا شيء يمكن التصرف حياله، فأنت تُرسل رسالة ضمنية: ضجيج نظامنا أهم من نومك وحكمك. اضرب ذلك في عشرات المهندسين ومئات التنبيهات، وستحصل على أكثر أوجه فشل برامج قابلية الملاحظة شيوعاً على نطاق واسع — إرهاق التنبيهات. تتوقف الفرق عن الوثوق بالتنبيهات، وتبدأ بتجاهلها، وفي المرة الأولى التي تُطلق فيها حادثة حقيقية، لا أحد يستجيب في الوقت المناسب.

يكرّس كتاب هندسة موثوقية المواقع (SRE) من Google فصلاً كاملاً لهذه المشكلة. المبدأ الأساسي الذي يظهر: كل تنبيه يجب أن يكون عاجلاً وقابلاً للتصرف ومرئياً من العملاء. إن لم يستوفِ التنبيه المعايير الثلاثة، فليكن تحذيراً في لوحة القيادة أو تذكرة، لا استدعاء هاتفي. يُعلّمك هذا الدرس كيف تبني نظام تنبيهات تثق به فرقة المناوبة، ويلتقط المشكلات الحقيقية قبل أن يلاحظها المستخدمون.

التنبيه المبني على الأعراض

أهم قرار تصميمي في التنبيهات هو التنبيه على الأعراض لا على الأسباب. العرَض هو ما يختبره المستخدم: استجابات بطيئة، أخطاء، ميزات غير متاحة. السبب هو حالة نظامية داخلية: CPU مرتفع، قرص يمتلئ، pod في حالة CrashLoopBackOff. الخطأ الذي ترتكبه معظم الفرق هو التنبيه على الأسباب، مما يقود إلى وضعَي فشل:

إيجابيات كاذبة: CPU عند 95% لدقيقتين لا يعني دائماً تأثراً على المستخدمين. ربما مهمة دفعية. ربما التوسع التلقائي يتفاعل بالفعل. تستدعي مهندساً دون مبرر.
سلبيات كاذبة: تسرب ذاكرة صامت يجعل محرك التوصيات يُقدم نتائج قديمة دون أي ارتفاع في CPU أو معدل الأخطاء. لا ينطلق أي تنبيه قائم على السبب. المستخدمون يعانون التدهور لساعات.

التنبيه القائم على الأعراض يعكس هذا. بدلاً من "أنبّه حين تتجاوز CPU نسبة 80%"، تسأل: "أنبّه حين يتجاوز زمن الاستجابة p99 حد اتفاقية مستوى الخدمة" أو "أنبّه حين يكون معدل استهلاك ميزانية الأخطاء مرتفعاً جداً." السبب الداخلي يصبح مدخلاً للتحقيق، لا مُشغِّلاً لإيقاظ شخص ما.

المبدأ الأساسي: الإشارات الذهبية الأربع (من Google SRE) تحدد فضاء الأعراض الشامل للخدمات الإلكترونية: زمن الاستجابة (كم البطء)، حركة المرور (كم الحمل)، الأخطاء (كم الفشل)، الإشباع (كم الامتلاء/الزيادة). أنبّه على التدهورات في هذه الإشارات الأربع، لا على الأسباب الداخلية التي قد تُنتجها. للأحمال غير الإلكترونية (قواعد البيانات، قوائم الانتظار، المهام الدفعية) الإشارات مختلفة، لكن المبدأ — التنبيه على ما يختبره المستخدم — يبقى صحيحاً.

مستويات الخطورة وعقد التصعيد

ليس كل تنبيه يستحق مكالمة هاتفية في الساعة الثالثة صباحاً. تُعرّف بنية التنبيهات المتينة تصنيفاً واضحاً للخطورة وتُطبّق عقد توجيه لكل مستوى. في معظم الشركات الناضجة تبدو المستويات كالتالي:

P1 — حرج / استدعاء فوري: المستخدمون غير قادرين كلياً على استخدام المنتج، أو سلامة البيانات مهددة. تأثير الإيرادات نشط. يتطلب استجابة بشرية فورية بصرف النظر عن الوقت. مثال: خدمة الدفع تُعيد 100% أخطاء، قاعدة البيانات الرئيسية معطلة بلا تبديل تلقائي مكتمل.
P2 — عالي / استدعاء في ساعات العمل، إيقاظ إن امتد: نسبة كبيرة من المستخدمين متأثرة. خرق اتفاقية مستوى الخدمة وشيك أو جارٍ. يتطلب استجابة خلال 30 دقيقة. مثال: زمن الاستجابة p99 ثلاثة أضعاف حد SLO لأكثر من 10 دقائق، معدل نجاح الدفع انخفض 15%.
P3 — متوسط / تذكرة، استجابة في يوم العمل التالي: مسار غير حرج متدهور أو حد سعة يقترب. لا تأثير فوري على المستخدمين، لكنه قد يتصاعد إن ترك. مثال: عمق قائمة انتظار المهام في اتجاه تصاعدي نحو الحد، نقطة نهاية API محددة بمعدل أخطاء مرتفع يؤثر على أقل من 0.5% من المستخدمين.
P4 — منخفض / تحذير لوحة القيادة: إعلامي. يستحق المتابعة لكن لا يتطلب إجراءً اليوم. لا يُرسل إشعاراً أبداً — مرئي فقط لمن يتابع لوحات القيادة بنشاط.

العقد مقدس: إن أُطلق P1 ولم يستجب المهندس خلال 5 دقائق، يُصعَّد تلقائياً إلى قائد الفريق. PagerDuty وOpsGenie وVictorOps تدعم هذه السياسة التصعيدية جاهزةً. اللحظة التي يُطلق فيها P1 لغير طارئ، سيبدأ الفريق بتوجيه تنبيهات P1 إلى الكتم — وهذا بداية انهيار الاستجابة للحوادث.

كتب التشغيل: التنبيه لا يكتمل بدونها

تنبيه بلا كتاب تشغيل كمنبّه بلا تعليمات. حين يُوقَظ مهندس في الساعة الثالثة صباحاً، قدرته الذهنية منخفضة، وضغطه مرتفع، وربما كان مبتدئاً لم يرَ هذا وضع الفشل من قبل. كتاب التشغيل هو الجسر بين "انطلاق التنبيه" و"حل الحادثة."

كل تنبيه إنتاجي يجب أن يرتبط مباشرة بكتاب تشغيله. الرابط يوضع في تعليق التنبيه. يجب أن يجيب الكتاب، بالترتيب:

ماذا يعني هذا التنبيه؟ بلغة واضحة: أي عرض مرئي للمستخدم يحدث أو في خطر؟
ما خطوة الفرز الفوري؟ الأمر أو لوحة القيادة الأولى للتحقق. يمكن الإجابة خلال أقل من دقيقتين.
ما الأسباب الجذرية المحتملة؟ مرتبة بالتكرار التاريخي. كل سبب مرتبط بمعالجته المحددة.
ما المعالجات الآمنة؟ أوامر دقيقة للتنفيذ، مصنفة آمنة مقابل مدمرة. الخطوات المدمرة تتطلب تأكيداً صريحاً.
متى يُصعَّد؟ إن لم يُحل خلال N دقائق، من تتصل به تالياً وما المعلومات التي تقدمها.

كتب التشغيل تسكن في نظام التحكم بالإصدارات جنباً إلى جنب مع قواعد التنبيه. حين تتغير قاعدة تنبيه، يُحدَّث كتاب التشغيل في نفس الـ PR. كتب التشغيل القديمة التي تشير إلى أوامر بالية أو خدمات غير موجودة أسوأ من انعدامها — تُضيع الوقت وتُقوّض الثقة.

ممارسة احترافية: أفضل كتب التشغيل في شركات مثل Stripe وGitHub وثائق حية — بعد كل حادثة تضرب تنبيهاً معيناً، يُحدّث مهندس المناوبة الكتاب بما وجده فعلاً، أي خطوات فرز كانت مضيعة للوقت، وأي سبب جذري جديد اكتشفه. هذا يحوّل كل حادثة إلى مكسب في المعرفة المؤسسية لا حدثاً لمرة واحدة. بعض الفرق تُقنّن هذا كسياسة: لا يمكنك إغلاق تذكرة حادثة دون تحديث كتاب التشغيل لكل تنبيه أُطلق.

# قاعدة تنبيه Prometheus مع تعليق كتاب التشغيل وتصنيف الخطورة
# ملف: monitoring/alerts/checkout-service.yml

groups:
  - name: checkout-service
    rules:
      - alert: CheckoutErrorBudgetBurnHigh
        expr: |
          (
            rate(http_requests_total{job="checkout", status=~"5.."}[1h])
            /
            rate(http_requests_total{job="checkout"}[1h])
          ) > 0.005
        for: 5m
        labels:
          severity: critical
          team: payments
          service: checkout
        annotations:
          summary: "Checkout error rate burning SLO budget at high rate"
          description: "Error rate {{ $value | humanizePercentage }} exceeds 0.5% SLO threshold for 5m."
          runbook_url: "https://runbooks.internal/checkout/high-error-rate"
          dashboard_url: "https://grafana.internal/d/checkout-overview"

      - alert: CheckoutLatencyP99High
        expr: |
          histogram_quantile(0.99,
            rate(http_request_duration_seconds_bucket{job="checkout"}[10m])
          ) > 0.8
        for: 10m
        labels:
          severity: high
          team: payments
          service: checkout
        annotations:
          summary: "Checkout p99 latency above 800ms"
          description: "p99={{ $value | humanizeDuration }} — SLO threshold is 500ms."
          runbook_url: "https://runbooks.internal/checkout/latency-p99-high"

# توجيه Alertmanager: الخطورة → المستقبِل
# ملف: monitoring/alertmanager/alertmanager.yml

route:
  receiver: default-slack
  group_by: ['alertname', 'service']
  group_wait: 30s
  group_interval: 5m
  repeat_interval: 4h
  routes:
    - match:
        severity: critical
      receiver: pagerduty-payments
      continue: false
    - match:
        severity: high
      receiver: slack-payments-oncall
    - match:
        severity: medium
      receiver: jira-ticket-creator

إرهاق التنبيهات: القاتل الصامت لثقافة المناوبة

إرهاق التنبيهات ليس استعارة — إنه ظاهرة قابلة للقياس. تُظهر دراسات أنظمة إنذار المستشفيات (حيث قتل الإرهاق مرضى) وفرق عمليات السحابة النمط ذاته: حين تنخفض نسبة التنبيهات القابلة للتصرف إلى إجمالي التنبيهات عن نحو 50%، يبدأ مهندسو المناوبة في تطوير سلوك قمع تلقائي. يُقرّون التنبيهات دون قراءتها. يُكتّمون PagerDuty للساعة الأولى بعد الاستيقاظ لأنهم يتوقعون أنه ضجيج. حين تُطلق الحادثة الحقيقية، الاستجابة بطيئة.

أسباب إرهاق التنبيهات في الأنظمة الإنتاجية:

التنبيه على الأسباب لا الأعراض — يقود إلى معدلات إيجابية كاذبة مرتفعة للحالات غير المؤثرة على المستخدمين.
حدود مضبوطة بعدوانية مفرطة — "أنبّه إن تجاوز p99 200ms أي وقت" يُطلق باستمرار في نظام حد SLO فيه 500ms.
غياب مدة for — ارتفاع مؤقت لمقياس يدوم 30 ثانية يستدعي مهندساً في الساعة الثالثة صباحاً.
تكاثر التنبيهات بلا مراجعة — يضيف المهندسون تنبيهات حين يجدون مشكلة جديدة، لكن لا أحد يحذف التنبيهات حين تُصلح المشكلة أو تُوقف الخدمة. عدد التنبيهات يتزايد باستمرار.
التنبيهات المتذبذبة — تنبيه يتأرجح بين الانطلاق والحل كل بضع دقائق، مُرسلاً إشعارات متعددة.

العلاج هو عملية مراجعة دورية للتنبيهات. كل ربع سنة، استخرج تاريخ إطلاق التنبيهات وصنّف كل تنبيه: (أ) أُطلق وأفضى إلى حادثة مؤثرة على المستخدم، (ب) أُطلق وكان ضجيجاً، (ج) لم يُطلق خلال حادثة كان يجب أن يلتقطها. تنبيهات الفئة (ب) مرشحة للحذف، أو رفع الحد، أو تحويلها إلى تذكرة. تنبيهات الفئة (ج) تكشف فجوات في التغطية.

تدفق التنبيه من إشارة المقياس عبر التوجيه إلى استجابة المناوبة ومراجعة ما بعد الحادثة — حلقة التغذية الراجعة التي تُقلّص الإرهاق بمرور الوقت.

النظافة العملية للتنبيهات على نطاق واسع

ما وراء الفلسفة، التنبيه الإنتاجي يتطلب انضباطاً تشغيلياً. هذه هي القواعد التي تتبعها فرق SRE في شركات التقنية الكبرى:

لكل تنبيه مالك. تنبيه بلا تصنيف فريق يُكتَّم ويُحذف. الملكية يُطبّقها إعداد التوجيه — إن لم يكن هناك مسار لتصنيف ما، يذهب التنبيه إلى catch-all يفتح تذكرة ضد فريق المنصة لإيجاد المالك.
يجب أن يكون للتنبيهات مدة for. لا تُطلق أبداً على تقييم واحد. الحد الأدنى for: 2m للحرج، for: 5m لكل شيء آخر. هذا وحده يُقضي على 60-70% من الإيجابيات الكاذبة الناتجة عن الارتفاعات العابرة.
استخدم معدل الاحتراق متعدد النوافذ لتنبيهات SLO. حد واحد على نافذة 5 دقائق يُفوّت الاحتراقات البطيئة. أنبّه حين يكون معدل الاحتراق خلال ساعة مرتفعاً ومعدل الاحتراق خلال 5 دقائق يؤكد أنه لا يزال جارياً. هذه هي الخوارزمية في كتاب SRE من Google: تلتقط الاحتراقات السريعة مبكراً والبطيئة قبل نفاد الميزانية، بمعدلات إيجابيات كاذبة منخفضة جداً.
أوقف التنبيهات خلال نوافذ الصيانة. قواعد inhibit_rules وtime_intervals في Alertmanager تتيح كتم التنبيهات المشتقة خلال فترات التوقف المخطط. نسيان هذا يُسبب 50+ تنبيهاً خلال صيانة مجدولة، مُدرّباً الفريق على تجاهلها.
تتبع نسبة الإشارة إلى الضجيج في تنبيهاتك. صدّر مقياساً: alerts_total{actionable="true|false"}. إن انخفضت نسبة القابل للتصرف عن 70%، جدوّل سبرينت لتدقيق التنبيهات.

# تنبيه معدل احتراق SLO متعدد النوافذ (نمط كتاب SRE من Google)
# يلتقط الاحتراقات السريعة والبطيئة بحد أدنى من الإيجابيات الكاذبة
# يفترض SLO = 99.9% (ميزانية أخطاء 0.1%)، نافذة 30 يوماً.

groups:
  - name: slo-burn-rate
    rules:
      # احتراق سريع: معدل 14.4x — يحرق 2% من الميزانية الشهرية في ساعة
      - alert: SLOBurnRateFast
        expr: |
          (
            rate(http_requests_total{job="api", status=~"5.."}[1h])
            / rate(http_requests_total{job="api"}[1h])
          ) > (14.4 * 0.001)
          and
          (
            rate(http_requests_total{job="api", status=~"5.."}[5m])
            / rate(http_requests_total{job="api"}[5m])
          ) > (14.4 * 0.001)
        for: 2m
        labels:
          severity: critical
          page: "true"
        annotations:
          summary: "API fast error budget burn — page immediately"
          runbook_url: "https://runbooks.internal/api/slo-burn-fast"

      # احتراق بطيء: معدل 3x — يحرق 10% من الميزانية الشهرية في 3 أيام
      - alert: SLOBurnRateSlow
        expr: |
          (
            rate(http_requests_total{job="api", status=~"5.."}[6h])
            / rate(http_requests_total{job="api"}[6h])
          ) > (3 * 0.001)
          and
          (
            rate(http_requests_total{job="api", status=~"5.."}[30m])
            / rate(http_requests_total{job="api"}[30m])
          ) > (3 * 0.001)
        for: 15m
        labels:
          severity: high
          page: "false"
        annotations:
          summary: "API slow error budget burn — investigate today"
          runbook_url: "https://runbooks.internal/api/slo-burn-slow"

# كتم Alertmanager: إخماد تنبيهات مستوى Pod حين تنبيه المجموعة نشط
# يمنع عاصفة التنبيهات حين يتعطل عقدة
inhibit_rules:
  - source_match:
      alertname: NodeDown
    target_match:
      job: kubernetes-pods
    equal: ['node']

مصيدة إنتاجية: لا تُنبّه أبداً على حالة مستقبلية متوقعة (مثلاً "القرص سيمتلئ خلال 4 ساعات بناءً على المعدل الحالي") ما لم يكن فريقك يتمتع بسجل مثبت للتصرف حيالها. التنبيهات التنبؤية تبدو جذابة لكن معدلات الإيجابيات الكاذبة فيها مرتفعة — يتغير المعدل، تنتهي صلاحية التنبؤ، والمهندس الذي حقق في الساعة الثانية صباحاً وجد استخداماً للقرص بنسبة 40% وعاد نائماً غاضباً. استخدم الإشارات التنبؤية في لوحات القيادة والملخصات اليومية، لا في الاستدعاءات. أنبّه على العرَض الحالي، لا على التوقع.

بناء الثقافة، لا مجرد الإعداد

فلسفة التنبيهات في جوهرها اتفاق فريق، لا ملف YAML لـ Prometheus. الإعداد يُطبّق الفلسفة، لكن الفلسفة يجب الاتفاق عليها أولاً. هذا يعني إجراء محادثات صريحة حول: ما الذي يُعدّ طارئاً، ما المقبول تركه يحترق خلال ساعات العمل، وما العقد الاجتماعي الضمني لدورة المناوبة. الفرق التي تتخطى هذه المحادثة تنتهي بمهندسين يضبطون كل منهم حساسية تنبيهاته بنفسه — بعضهم يُكتّم كل شيء، وبعضهم ينبّه على كل تقلب — والنظام ككل يصبح غير متوقع.

أضفِ هذا كـمراجعة ربع سنوية للتنبيهات: استخرج تاريخ التنبيهات خلال آخر 90 يوماً، احسب نسبة القابل للتصرف لكل تنبيه، حدد أعلى 10 تنبيهات ضجيجاً بالحجم، وأمضِ سبرينتاً لتقليصها. هذه الحلقة التغذية الراجعة، مطبّقةً باستمرار، تُنتج نظام تنبيهات تثق به الفرقة — مما يعني فريقاً يستجيب حين يهم الأمر.