ضبط الأحجام وإزالة الهدر
ضبط الأحجام وإزالة الهدر
في معظم الشركات التي تعمل على السحابة منذ عامين أو أكثر، يذهب ما بين 25–40% من الفاتورة الشهرية إلى موارد خاملة أو مفرطة الحجم أو مهجورة كلياً. لذلك يُعدّ ضبط الأحجام وإزالة الهدر أعلى نشاطات FinOps عائداً على الاستثمار — وتظهر نتائجه في أيام لا في أرباع مالية. يتناول هذا الدرس الفئات الثلاث الرئيسية للهدر: الموارد الخاملة، والمثيلات المفرطة الحجم، والتخزين المهجور، ويعالج كل واحدة منها بوصفها مشكلة تشغيلية مستقلة لها خط اكتشاف وكتيّب علاج خاص بها.
الموارد الخاملة
المورد الخامل هو مورد يعمل ويُحسب ثمنه دون أن يقدّم أي قيمة للمستخدم. أمثلة شائعة: مثيل EC2 تطويري تُرك مشغّلاً طوال عطلة نهاية أسبوع ممتدة، قاعدة بيانات RDS تعطّل تطبيقها منذ ستة أشهر، موزّع أحمال بدون أهداف سليمة، توزيع CloudFront يشير إلى أصل محذوف، أو مجموعة عُقد GKE بمتوسط استخدام CPU 3% لخدمة تم إيقافها. التحدي أن الارتفاعات المتفرقة تجعل الخامل يبدو نشيطاً ما لم تنظر في الإشارة الصحيحة على نافذة زمنية كافية.
استعلام الاكتشاف الأساسي لـ EC2 يعتمد مقاييس CloudWatch. اسحب متوسط CPU على مدى 14 يوماً وضع علامة على كل ما هو أقل من 5%. لكن CPU وحدها مُضلِّلة — طبقة الكاش أو المثيل الاحتياطي قد يُظهر صفراً بينما يخدم حركة مرور حيوية على ارتفاعات المنافذ. تحقّق بالتقاطع مع بايتات الشبكة وعدد الاتصالات قبل اتخاذ أي إجراء.
المثيلات المفرطة الحجم
المبالغة في الحجم تختلف عن الخمول: المورد يُستخدم فعلاً، لكنه جُهّز بحجم لم يكن مبرّراً أصلاً أو كان كذلك ثم تقلّص الحمل. نمط شائع في الإنتاج: خدمة مصغّرة أُطلقت على m5.4xlarge "لأننا لم نكن متأكدين من الحمل"، وبعد ستة أشهر تكون P99 CPU لها 8% والخدمة تعمل على نفس العتاد. الفارق بين m5.4xlarge (0.768$/ساعة) وm5.large (0.096$/ساعة) هو 8x — على أسطول من 50 خدمة مماثلة يعني ذلك 300,000$/سنة.
ضبط الأحجام دورة من ثلاث خطوات: قِس، اقترح، غيّر مع خطة تراجع. لا تُغيّر الحجم في الإنتاج دون تراجع مُختبَر. للخدمات عديمة الحالة خلف موزّع أحمال، التراجع هو تغيير قالب إطلاق Auto Scaling Group في دقيقة. للخدمات ذات الحالة (قواعد بيانات، طوابير، خدمات تنسيق)، التراجع هو استعادة لقطة — اختبر وقت الاستعادة قبل تغيير الحجم.
mem_used_percent) وGCP Ops Agent على كل مثيل قبل الثقة بأي توصية لضبط الحجم. بدون بيانات الذاكرة، سيوصي Optimizer بمثيل موجّه للحوسبة لعبء عمل محدود بالذاكرة وستتسبب في OOM في الإنتاج.
التخزين المهجور
التخزين المهجور هو فئة الهدر الأكثر خداعاً لأن هذه الموارد لا تظهر في لوحات المراقبة العادية. أمثلة شائعة: أقراص EBS منفصلة عن مثيلات محذوفة (لا تُحذف افتراضياً)، لقطات EBS لأقراص لم تعد موجودة، صور AMI مسجّلة لكنها لم تُستخدم قط، أدلة S3 بدون سياسات دورة حياة، لقطات RDS تتجاوز سياسة الاستبقاء، وعناوين Elastic IP مُخصَّصة لكن غير مرتبطة (تُفوتر بـ 0.005$/ساعة — ضئيلة للوحدة لكنها ضخمة على نطاق واسع).
في AWS، الإعداد الافتراضي الأكثر إغفالاً هو أن علامة DeleteOnTermination لقرص EBS الجذر تكون true افتراضياً، لكن الأقراص الإضافية تكون false افتراضياً. كل مجموعة Auto Scaling ترفق قرص بيانات ثانوياً ستترك أقراص EBS مهجورة عند كل حدث تقليص ما لم تضبط DeleteOnTermination=true صراحةً عند الإرفاق أو عبر قالب الإطلاق.
سير عمل ضبط الأحجام على نطاق واسع
التنظيف المتقطع حدث لمرة واحدة؛ الهدر في الإنتاج يتراكم باستمرار. يبني المهندسون المتمرسون خط أنابيب أسبوعي آلي يُنفّذ ما يلي: سحب التوصيات من Compute Optimizer وأدوات GCP/Azure المقابلة؛ ربطها بقاعدة بيانات الوسوم لتحديد الفريق المالك ومركز التكلفة؛ حساب الوفورات المتوقعة شهرياً؛ فتح تذكرة Jira مُعيَّنة للفريق بمهلة أسبوعين؛ تتبع معدل الإغلاق لكل فريق؛ تصعيد التذاكر غير المُغلقة إلى مدراء الهندسة. يحوّل هذا ضبط الأحجام من حملة تنظيف بطولية إلى انضباط تشغيلي مستمر.
ضمانات الحماية على مستوى الإنتاج
كل برنامج لإزالة الهدر يحذف في نهاية المطاف شيئاً لا ينبغي حذفه. ابنِ الضمانات قبل أتمتة الحذف: ضع وسم do-not-delete=true على كل مورد يجب أن يبقى بغض النظر عن المقاييس؛ اشترط موافقة بشرية لأي حذف فوق حد حجم محدد (أقراص EBS تتجاوز 500 GB، أدلة S3 تتجاوز 1 TB)؛ شغّل جميع سكريبتات الحذف في وضع التجربة لمدة أسبوع قبل تفعيل الوضع الحي؛ واحتفظ بسجل تدقيق 30 يوماً لكل شيء تم حذفه، من قِبل من (أو أي أتمتة)، مع ARN المورد والمقياس الذي أثار الحذف. نجح سجل التدقيق في إنقاذ مهندسي الاستجابة في حالات انقطاع غامضة تبيّن أنها كانت بسبب أتمتة تنظيف أزالت قائمة انتظار "صفرية الحركة" اكتُشف لاحقاً أنها كانت قائمة رسائل ميتة تُراجع مرة في الشهر من قِبل مهمة امتثال.
ضبط الأحجام وإزالة الهدر ليسا مشروع تنظيف لمرة واحدة. إنهما انضباط هندسي مستمر. تُشغّل الشركات الأسرع نمواً خط الأنابيب هذا أسبوعياً، وتنشر لوحات وفورات على مستوى الفريق (يطّلع عليها نواب الرؤساء)، وتعامل نسبة الهدر لكل فريق كمقياس هندسي من الدرجة الأولى جنباً إلى جنب مع الموثوقية والسرعة.