إدارة أنظمة لينكس

تغطية متقدمة: Production Linux Incident Triage

24 دقيقة الدرس 28 من 28

Production Linux Incident Triage

هذا الدرس يوسع مسار Linux System Administration اعتمادًا على موضوعات التوثيق الرسمية: systemd, journald, storage, filesystems, kernel tuning, maintenance, patching and server hardening. الهدف هو تحويل Production Linux Incident Triage من عنوان نظري إلى قدرة تشغيلية يمكن تطبيقها ومراجعتها في بيئة إنتاج.

اقرأ هذا الدرس كجزء من مراجعة A to Z للمسار: المفهوم، الإعداد، الأمان، التشغيل، المراقبة، وrollback.

تغطية التوثيق

المفاهيم الأساسية والمصطلحات المرتبطة بالموضوع.
الإعدادات والخيارات التي تظهر في التوثيق الرسمي.
مخاطر الإنتاج وحدود المسؤولية بين الفرق.
خطوات التحقق قبل وبعد التطبيق.
الأخطاء الشائعة وكيفية تشخيصها.

طريقة التطبيق

حدد مصدر الحقيقة: Git أو configuration أو API أو control plane.
نفذ التغيير بطريقة قابلة للتكرار مع dry-run أو plan عندما يكون ذلك ممكنًا.
اربط التغيير ببوابات CI/CD وسياسات الأمان المناسبة.
راقب المقاييس والسجلات والأحداث بعد التطبيق.
وثق rollback ومالك التصعيد قبل لمس الإنتاج.

set -euo pipefail
systemctl --failed
journalctl -p warning --since '30 minutes ago'
find /var/log -type f -mtime -1 -size +10M

معيار الإتقان

تتقن Production Linux Incident Triage عندما تستطيع شرحه، تطبيقه، اختباره، مراقبته، واستعادته من الفشل بدون الاعتماد على خطوات يدوية غير موثقة.

تطبيق عملي: أنشئ runbook صغيرًا لهذا الموضوع يتضمن المتطلبات، الأوامر، التحقق، المخاطر، وخطة rollback.

الدرس السابق تغطية متقدمة: Server Bootstrap Checklists

العودة للدورة هندسة DevOps

العودة للدورة

تغطية متقدمة: Production Linux Incident Triage

Production Linux Incident Triage

تغطية التوثيق

طريقة التطبيق

معيار الإتقان

اكتمل الدرس!