متابعي مدونة مقالات الأعزاء، تكلمنا في مقال آخر أخبار التكنولوجيا على إطلاق نموذج Deepseek V3 للذكاء الاصطناعي اليوم سوف نتكلم على النقاط التقنية المميزة التي جاء بها هذا النموذج.
نموذج الذكاء الاصطناعي الصيني DeepSeek V3 يعتبر واحد من أكبر التطورات التقنية في مجال الـ Language Models.
نموذج عملاق ب 685B parameters
و هذا يعني قدرة خارقة في التعلم وفهم البيانات المعقدة. هذا الحجم يجعله يتفوق على الكثير من النماذج المنافسة.:
التصميم (MoE - Mixture-of-Experts)
يحتوي على 256 خبير ولكن فقط 8 منهم يتم تفعيلهم لكل رامزة.
تقليل التخزين و سرعة التدرب
هذه التقنية، التي يسمونها Expert-Specialized Fine-Tuning (ESFT)، تقلل التخزين بـ90% وتسرّع التدريب بـ30%!
أداء خارق
تفوق على نماذج بحجم Sonnet 3.5 في معايير مثل Aider، خاصة في فهم النصوص والبرمجة. نظام sparsity الخاص به، أي أنه يستهلك موارد أقل مع تحقيق نتائج أفضل.
طول سياق عملاق 160 ألف token
قدرة رهيبة على التعامل مع النصوص الطويلة أو المحادثات الممتدة.
إرسال تعليق