MLOps وDevOps لأنظمة الذكاء الاصطناعي

التكامل والنشر المستمر للنماذج

18 دقيقة الدرس 5 من 28

التكامل والنشر المستمر للنماذج

أنت تشغّل بالفعل خطوط أنابيب CI/CD للكود البرمجي: فحص الأسلوب، الاختبار، البناء، الرفع، النشر. تمديد هذا الانضباط لنماذج تعلم الآلة يعني إضافة مسار موازٍ يختبر قطعة النموذج بالصرامة ذاتها التي تطبّقها على الملف الثنائي للتطبيق — ثم أتمتة قرارات الترقية التي كان فريق علم البيانات يتّخذها يدويًا. هنا يتوقف MLOps عن كونه فلسفة ويتحوّل إلى هندسة تشغيلية حقيقية.

التحدي الجوهري أن النموذج ليس مجرد كود. اجتياز مجموعة الاختبارات على كود التدريب لا يخبرك بأن قطعة النموذج الناتجة آمنة للخدمة. أنت بحاجة إلى بوابات متراكبة: فحوصات جودة البيانات، التحقق من التدريب، التقييم دون اتصال على بيانات محجوزة، النشر الظلّي، وحركة مرور الكاناري — كل ذلك مؤتمَت ويوقف الترقية عند الفشل. في شركات كـ Google و Spotify و DoorDash، تعمل هذه البوابات بالكامل دون تدخل بشري في الغالبية العظمى من تحديثات النماذج الروتينية.

طبقات البوابات الأربع

فكّر في خط أنابيب النموذج باعتباره أربع طبقات بوابات متسلسلة، لكل منها معايير نجاح/فشل مؤتمتة. يجب أن تجتاز قطعة النموذج جميع الطبقات السابقة قبل الانتقال إلى التالية.

البوابة الأولى — التحقق من البيانات والميزات: تعمل قبل بدء التدريب. تفحص توافق المخطط، معدلات القيم الفارغة، الإحصاءات التوزيعية مقابل خطوط الأساس، وانحراف التدريب عن الخدمة. أداوت: Great Expectations، اختبارات dbt. الفشل هنا يعني أن بيانات التدريب تالفة.
البوابة الثانية — التحقق من التدريب: تعمل أثناء التدريب وبعده مباشرةً. تتحقق من تقارب الخسارة وصحة التدرجات وأن مقاييس التدريب تلبّي حدًا أدنى مضبوطًا. الحد المطلق ("يجب أن يكون AUC > 0.80") يكشف الإخفاقات الكارثية؛ دلتا نسبية ("يجب ألا ينخفض AUC أكثر من 2% عن البطل الحالي") تكشف الانحدارات.
البوابة الثالثة — التقييم دون اتصال: تعمل على مجموعة اختبار محجوزة ومجموعة اختبارات سلوكية (اختبارات الشرائح). تفحص أهداف المقاييس الكلية، الأداء لكل شريحة، والمتانة ضد الهجمات حيثما كان ذلك مناسبًا. هنا تُشغَّل اختبارات الانحياز والعدالة.
البوابة الرابعة — التقييم الإلكتروني: حركة مرور ظلّية وإطلاق كاناري. يخدم النموذج الجديد التنبؤات بالتوازي مع البطل، أو على 1-5% من حركة المرور الحقيقية، بينما تقارن الكمون ومعدل الخطأ والمقاييس التجارية الإلكترونية. فقط بعد مرور وقت نقع مضبوط دون انحدارات، يرقّي خط الأنابيب النموذج الجديد إلى الإنتاج الكامل.

مفهوم أساسي: البوابات 1-3 دون اتصال — تعمل في بنية CI/CD قبل أن تلمس أي حركة مرور إنتاجية النموذج. البوابة الرابعة إلكترونية — تتطلب نشرًا على فتحة ظلّية أو كاناري. الخلط بينهما يؤدي إما إلى شحن نماذج غير مختبرة أو إلى حجب النشر بانتظار بيانات إنتاجية إلى الأبد. ابقِهما منفصلتين معماريًا.

خط أنابيب CI: التدريب والتقييم

يُشغَّل خط أنابيب CI عند الدمج في main (تغيير كود) أو بجدول cron دوري (إعادة تدريب دورية من بيانات جديدة). كلا المسارين يشغّلان تسلسل البوابات ذاته. إليك سير عمل GitHub Actions على مستوى الإنتاج باستخدام MLflow للتتبع وسجل نماذج للترقية:

# .github/workflows/model-ci.yml

name: Model CI

on:
  push:
    branches: [main]
    paths:
      - 'src/train/**'
      - 'src/features/**'
      - 'config/model.yaml'
  schedule:
    - cron: '0 2 * * *'    # إعادة تدريب ليلية من بيانات جديدة

env:
  MLFLOW_TRACKING_URI: ${{ secrets.MLFLOW_TRACKING_URI }}
  AWS_DEFAULT_REGION: us-east-1

jobs:
  data-validation:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4
      - uses: actions/setup-python@v5
        with: { python-version: '3.11' }
      - run: pip install -r requirements-ci.txt
      - name: Validate feature data
        run: |
          python scripts/validate_data.py \
            --expectation-suite config/ge_suite.json \
            --feature-snapshot s3://ml-artifacts/features/latest/ \
            --baseline s3://ml-artifacts/features/baseline/

  train-and-evaluate:
    needs: data-validation
    runs-on: [self-hosted, gpu]    # منفذ GPU — معيار EC2 g4dn.xlarge
    steps:
      - uses: actions/checkout@v4
      - name: Train model
        run: |
          python src/train/train.py \
            --config config/model.yaml \
            --experiment-name "ci-${GITHUB_SHA::8}"
        id: train

      - name: Gate 2 - training metrics
        run: |
          python scripts/check_training_metrics.py \
            --run-id ${{ steps.train.outputs.run_id }} \
            --min-auc 0.82 \
            --max-auc-delta 0.02

      - name: Gate 3 - offline evaluation
        run: |
          python scripts/evaluate_offline.py \
            --run-id ${{ steps.train.outputs.run_id }} \
            --test-set s3://ml-artifacts/test-sets/latest/ \
            --slice-config config/eval_slices.yaml \
            --fairness-config config/fairness_thresholds.yaml

      - name: Register candidate model
        if: success()
        run: |
          python scripts/register_model.py \
            --run-id ${{ steps.train.outputs.run_id }} \
            --stage Staging    # يذهب إلى Staging وليس Production بعد

ممارسة احترافية: استخدم منفذ GPU مستضافًا ذاتيًا لمهمة التدريب. مثيلات Spot/Preemptible تخفّض التكلفة بنسبة 60-80% مقارنة بالطلب الفوري. يجب أن يتعامل إطار CI الخاص بك مع منطق إعادة المحاولة وإرسال المهمة إلى منطقة توافر مختلفة عند انقطاع الـ spot.

خط أنابيب نشر النموذج (مُخطَّط)

بعد أن يسجّل خط أنابيب CI مرشحًا في Staging، يتولى خط أنابيب CD منفصل الترقية إلى الإنتاج. الاثنان منفصلان عمدًا: CI يعمل مع كل commit؛ CD يعمل عندما تقرر آلية بشرية أو سياسة مؤتمتة الترقية. هذا يعكس نمط GitOps الذي تستخدمه بالفعل لنشر التطبيقات — سجل النماذج هو "مستودع GitOps" لقطع النماذج.

خط أنابيب CI/CD للنموذج: أربع طبقات بوابات من التحقق من البيانات حتى إطلاق الإنتاج الكامل، مع مسارات فشل تلقائية وإمكانية التراجع.

البوابة الثالثة بالتفصيل: اختبار الشرائح وتوكيدات النموذج

عتبات المقاييس الإجمالية ضرورية لكنها غير كافية. يمكن لنموذج أن يتحسّن على AUC الإجمالي بينما ينحدر بصمت على شريحة ديموغرافية أو منطقة جغرافية أو فئة منتج محددة — النوع من الإخفاق الذي يسبّب ضررًا حقيقيًا وتعرّضًا تنظيميًا. أنظمة ML الإنتاجية في الشركات المنظَّمة تشغّل التقييم المعتمد على الشرائح كبوابة صارمة.

يحدد تهيئة التقييم أي الشرائح مهمة وما هو الحد الأدنى لكل شريحة:

# config/eval_slices.yaml
# يُقيَّم كل شريحة باستقلالية. فشل أي شريحة في عتبتها
# يوقف الترقية بالكامل — خط الأنابيب لا يأخذ المتوسط عبر الشرائح.

global_metrics:
  auc_roc:
    min: 0.83
    max_regression_vs_champion: 0.02

slices:
  - name: mobile_users
    filter: "platform == 'mobile'"
    metrics:
      auc_roc: { min: 0.80 }

  - name: new_accounts           # شريحة تجارية ذات قيمة عالية
    filter: "account_age_days < 30"
    metrics:
      auc_roc: { min: 0.78 }
      precision_at_k: { k: 10, min: 0.72 }

  - name: eu_region              # خاضع لتنظيم GDPR، حساس للعدالة
    filter: "region == 'EU'"
    metrics:
      auc_roc: { min: 0.81 }
      disparate_impact_ratio: { min: 0.80 }   # مقياس العدالة: قاعدة الـ 80%

behavioral_tests:               # توكيدات النموذج — مدخلات حتمية
  - name: "invariance: typo robustness"
    input_pairs:
      - [canonical, perturbed]   # يجب ألا يُقلب تصنيف النموذج
    max_flip_rate: 0.05

  - name: "directional: higher spend = higher score"
    direction: positive
    feature: transaction_amount
    expected_correlation: positive

خطأ إنتاجي شائع: كثيرًا ما تكتشف الفرق انحدارات الشرائح فقط بعد أن يخدم النموذج حركة مرور إنتاجية لأيام — لأن التقييم أُجري فقط على مجموعة الاختبار الإجمالية. بحلول الوقت الذي يظهر فيه انحدار الشريحة في لوحات الأعمال (مثل انخفاض معدل التحويل للمستخدمين الجدد)، يكون قد كلّف بالفعل إيرادات حقيقية أو ثقة المستخدمين. شغّل اختبارات الشرائح في البوابة الثالثة وعامل أي إخفاق في شريحة كحجب صارم وليس تحذيرًا.

التراجع التلقائي ومنطق البطل/المتحدي

يجب أن يعرف خط أنابيب CD دائمًا أي نموذج هو البطل الحالي (النموذج الذي يخدم 100% من حركة الإنتاج حاليًا) وأن يكون قادرًا على التراجع إليه في أقل من دقيقتين إذا فشل المتحدي في التقييم الإلكتروني. في MLflow، تُعيَّن مراحل النموذج بوضوح: Staging للمرشحين، Production للبطل. يقارن نص النشر المتحدي بالبطل قبل أي تحويل لحركة المرور.

#!/usr/bin/env python3
# scripts/promote_model.py

import mlflow
from mlflow.tracking import MlflowClient

client = MlflowClient()
MODEL_NAME = "fraud-detector"

def get_champion():
    versions = client.get_latest_versions(MODEL_NAME, stages=["Production"])
    return versions[0] if versions else None

def promote_challenger(challenger_version: str):
    champion = get_champion()

    # أرشف البطل الحالي (لا تحذفه — احتفظ به لسجل التراجع)
    if champion:
        client.transition_model_version_stage(
            name=MODEL_NAME,
            version=champion.version,
            stage="Archived",
            archive_existing_versions=False,
        )

    # رقّي المتحدي إلى الإنتاج
    client.transition_model_version_stage(
        name=MODEL_NAME,
        version=challenger_version,
        stage="Production",
    )

def rollback():
    """يُستدعى عند اكتشاف المراقبة لانحدار إلكتروني."""
    versions = client.search_model_versions(f"name=\'{MODEL_NAME}\'")
    archived = [v for v in versions if v.current_stage == "Archived"]
    archived.sort(key=lambda v: int(v.version), reverse=True)
    if archived:
        promote_challenger(archived[0].version)
    else:
        raise RuntimeError("No archived champion found")

if __name__ == "__main__":
    import sys
    if sys.argv[1] == "promote":
        promote_challenger(sys.argv[2])
    elif sys.argv[1] == "rollback":
        rollback()

ممارسة احترافية: اربط مشغّل التراجع التلقائي بمنظومة المراقبة، وليس بخط الأنابيب فحسب. استخدم تنبيهات Prometheus أو مراقبات Datadog التي ترصد المقياس التجاري الإلكتروني. إذا انخفض المقياس أكثر من عتبة مضبوطة خلال 30 دقيقة من ترقية النموذج، يجب أن يستدعي نظام التنبيه promote_model.py rollback تلقائيًا. في DoorDash و Airbnb، يُغلق هذا الحلقة في أقل من خمس دقائق من الانحدار حتى التراجع.

خريطة المشغّلات الكاملة

تمتلك خطوط أنابيب ML الإنتاجية عادةً ثلاثة أنماط تشغيل مختلفة يجب أن تغذّي جميعها تسلسل البوابات ذاته:

مشغّل تغيير الكود: يُدمج PR في main يمسّ كود النموذج، هندسة الميزات، أو المعاملات التشعبية. يدرّب خط الأنابيب من مجموعة البيانات الإنتاجية الحالية. هذا يضمن التحقق من كل تغيير كود مقابل بيانات حقيقية قبل الترقية.
مشغّل الجدولة (التدريب المستمر): يدرّب cron ليلي أو أسبوعي النموذج على نافذة متجددة من البيانات الأخيرة. يتحقق خط الأنابيب مما إذا كان النموذج الجديد يتفوق على البطل قبل الترقية. إذا كان البطل لا يزال يفوز، لا تحدث أي ترقية.
إعادة التدريب المُشغَّلة بالبيانات: تُطلق تنبيه مراقبة عندما يتجاوز الانحراف الإنتاجي عتبة ما. يستدعي التنبيه واجهة API لخط الأنابيب مباشرةً، متجاوزًا جدول cron، حتى يمكن إعادة تدريب النموذج وترقيته خلال ساعات من تحوّل التوزيع.

يجب أن تصدر جميع المسارات الثلاثة البيانات الوصفية المنظّمة ذاتها لمتتبع التجارب حتى تتمكن من مراجعة "لماذا ذهب هذا النموذج إلى الإنتاج يوم الثلاثاء؟" بعد أشهر. عامل هذا السجل التدقيقي بالجدية ذاتها التي تعامل بها سجل النشر — إنه دفاعك في مراجعة ما بعد حادثة النموذج وأمام الجهات التنظيمية.