NVIDIA NeMo RL يحقق تسريعًا بنسبة 48% مع التدريب بدقة FP8 من البداية إلى النهاية

Jessie A Ellis 23:41 20 أبريل 2026

وصفة FP8 الجديدة من NVIDIA للتعلم المعزز توفر تدريبًا أسرع بنسبة 48% مع مطابقة دقة BF16، مما يخفض تكاليف البنية التحتية للذكاء الاصطناعي بشكل كبير.

NVIDIA NeMo RL يحقق تسريعًا بنسبة 48% مع التدريب بدقة FP8 من البداية إلى النهاية

أصدرت NVIDIA وصفة شاملة لدقة FP8 للتعلم المعزز توفر إنتاجية تدريب أسرع بنسبة تصل إلى 48% مع الحفاظ على تكافؤ الدقة مع أساليب BF16 التقليدية—وهو تطور له آثار كبيرة على تكاليف البنية التحتية للذكاء الاصطناعي واقتصاديات حوسبة وحدة معالجة الرسومات.

التقنية، الموضحة بالتفصيل في منشور مدونة تقنية من Guyue Huang من NVIDIA، تعالج واحدة من أصعب مشاكل تدريب التعلم المعزز: الاختلاف العددي بين مراحل التوليد والتدريب عند استخدام مستويات دقة مختلفة عبر محركات منفصلة.

الاختراق التقني

خطوط أنابيب التعلم المعزز التقليدية تستخدم vLLM للإطلاق و Megatron Core للتدريب—كل منها بنوى CUDA فريدة تقدم اختلافات عددية تراكمية. هذه التباينات تتضخم عند مستويات الدقة المنخفضة، مما يحد تاريخيًا من اعتماد FP8.

حل NVIDIA؟ تطبيق FP8 بشكل متسق عبر التوليد والتدريب بدلاً من خلط مستويات الدقة. الاختبار على Llama 3.1 8B Instruct أظهر دقة تحقق 0.613 مع FP8 من البداية إلى النهاية مقابل 0.616 لـ BF16—مما يسد الفجوة بشكل فعال. في الوقت نفسه، استخدام FP8 للتوليد فقط أدى إلى انخفاض الدقة إلى 0.586.

الوصفة تستخدم FP8 المكمم على مستوى الكتل (تنسيق E4M3) بدقة 128x128 للأوزان و 1x128 للتفعيلات. الطبقات الخطية تشغل رياضيات FP8 بإنتاجية ذروة نظرية 2x مقابل BF16، بينما تبقى وظائف الانتباه والتطبيع والوظائف غير الخطية في BF16.

مكاسب الأداء في العالم الحقيقي

للطبقات الخطية وحدها، توفر وصفة FP8 تحسينات متسقة في الإنتاجية بنسبة 15-25%. الفجوة بين التسريع النظري 2x والمكاسب الفعلية تأتي من طبقات الانتباه المتبقية في BF16 بالإضافة إلى تكلفة نواة التكميم.

توسيع FP8 لتشمل ذاكرة التخزين المؤقت KV وعمليات الانتباه يدفع التسريع الإجمالي إلى حوالي 48% فوق خطوط أساس BF16. المشكلة: أوزان السياسة المحدثة باستمرار للتعلم المعزز تتطلب إعادة معايرة ديناميكية لمقاييس التكميم بعد كل خطوة تدريب. نهج NVIDIA يضيف تكلفة إضافية تبلغ حوالي 2-3% لإعادة المعايرة هذه—وهي تكلفة بسيطة لتسريع كبير.

الاختبار على Qwen3-30B (نموذج مزيج من الخبراء) أظهر منحنيات دقة متطابقة بين تكوينات FP8 و BF16، مما يشير إلى أن التقنية تتوسع عبر البنى المعمارية.

لماذا هذا مهم لاقتصاديات الذكاء الاصطناعي

تدريب التعلم المعزز للنماذج القادرة على التفكير مثل تلك التي تقف وراء مساعدي الذكاء الاصطناعي المتقدمة يتطلب حوسبة ضخمة. تسريع بنسبة 48% يترجم مباشرة إلى انخفاض ساعات وحدة معالجة الرسومات وفواتير كهرباء أقل للمؤسسات التي تدرب هذه الأنظمة.

تقنية أخذ العينات ذات الأهمية التي تمكن الحفاظ على الدقة يمكن أن تثبت قيمتها بالمثل. من خلال تصحيح عدم تطابق التوزيع بين نماذج التوليد والتدريب على أساس كل رمز، فإنها تسمح بتقليل دقة قوي دون التضحية بجودة النموذج.

التنفيذ الكامل متاح في مكتبة NeMo RL مفتوحة المصدر من NVIDIA، مع وصفات مكونة مسبقًا لنماذج Llama 3.1 8B و Moonlight 16B. يمكن للمستخدمين المتقدمين ضبط النهج بدقة—الحفاظ على طبقات محول محددة في BF16 أو التبديل إلى عوامل تحجيم قوة 2 لتحسين إضافي.

بالنسبة لمشغلي البنية التحتية للذكاء الاصطناعي الذين يراقبون تكاليف الحوسبة ترتفع جنبًا إلى جنب مع تعقيد النموذج، يمثل هذا رافعة كفاءة ذات مغزى لا تتطلب ترقيات للأجهزة—فقط استخدام أكثر ذكاءً لقدرات H100 الموجودة.

مصدر الصورة: Shutterstock