أهلا بكم متابعي مدونة مقالات الأعزاء، في مقال آخر أخبار التكنولوجيا تحدثنا عن إعلان نموذج الذكاء الاصطناعي الصيني، ثم في مقالنا السابق تحدثنا عن مميزات نموذج الذكاء الاصطناعي الصيني DeepSeek V3، اليوم تم إصدار ال Benchmarks الرسمية لنموذج DeepSeek V3 و سعر ال api.
المعايير المذكورة في الجدول تقيس أداء النماذج في مجموعة متنوعة من المهام التي تخص اللغة الإنجليزية والبرمجة. سأشرح كل معيار باختصار لتوضيح ما يتم قياسه:
أولاً: معايير اللغة الإنجليزية
1. MMLU (EM)
اختصار لـ Massive Multitask Language Understanding.
يقيس قدرة النموذج على الإجابة عن أسئلة متعددة التخصصات (مثل العلوم، التاريخ، الرياضيات) بدقة.
(EM: Exact Match) تعني أن الإجابة يجب أن تكون مطابقة تمامًا للإجابة الصحيحة.
2. MMLU-Redux (EM)
نسخة مُعدلة من MMLU تركّز على مهام أكثر تخصصًا.
يتم تقييم الأداء بنفس الطريقة (Exact Match).
3. DROP (3-shot F1)
اختبار يركز على استخراج المعلومات من النصوص المعقدة، مثل الإجابة عن أسئلة تتطلب استنتاجًا.
3-shot تعني أن النموذج يعطى 3 أمثلة تدريبية قبل الاختبار.
F1 يقيس مدى دقة واكتمال الإجابة.
4. IF-Eval (Prompt Strict)
يختبر قدرة النموذج على تقديم استنتاجات منطقية بناءً على تعليمات معقدة.
"Strict" تعني أن التقييم صارم جدًا، حيث يجب أن يكون الجواب منطقيًا ودقيقًا تمامًا.
5. GPQA-Diamond (Pass@1)
يركز على General Purpose Question Answering، أي الإجابة على أسئلة عامة.
"Pass@1" يعني نجاح النموذج في تقديم الإجابة الصحيحة من المحاولة الأولى.
6. SimpleQA (Correct)
يختبر قدرة النموذج على الإجابة عن أسئلة بسيطة ومباشرة.
7. FRAMES (Acc.)
يقيس أداء النموذج في تحليل الحوارات وفهم الأدوار المختلفة للشخصيات داخل الحوار.
8. LongBench v2 (Acc.)
يختبر قدرة النموذج على التعامل مع نصوص طويلة ومعقدة.
ثانيًا: معايير البرمجة
1. HumanEval-Mul (Pass@1)
اختبار يقيس قدرة النموذج على حل مسائل برمجية تُعطى بشكل طبيعي.
"Pass@1" تعني النجاح في حل المسألة من المحاولة الأولى.
2. LiveCodeBench (Pass@1-correct):
يقيم أداء النموذج في كتابة تعليمات برمجية صحيحة وقابلة للتنفيذ مباشرة.
3. Codeforces (Percentile)
يقيس أداء النموذج على مسابقات برمجية مشابهة لتلك الموجودة في منصة Codeforces.
النسبة المئوية تُظهر تصنيف النموذج بين المتسابقين.
4. SWE Verified (Resolved)
اختصار لـ Software Engineering Verified.
يقيس قدرة النموذج على تقديم حلول برمجية صحيحة، مع التركيز على مشاكل البرمجة العملية.
5. Aider-Edit (Acc.)
يختبر أداء النموذج في مراجعة وتصحيح التعليمات البرمجية.
6. Aider-Polyglot (Acc.)
يقيم قدرة النموذج على البرمجة بلغات متعددة بكفاءة.
ثالثا الرياضيات
1. AIME 2024 (Pass@1)
AIME اختصار لـ American Invitational Mathematics Examination، وهي مسابقة رياضيات أمريكية شهيرة تركز على المسائل الرياضية المعقدة.
Pass@1 يعني أن النموذج يجب أن يحل المسألة بشكل صحيح من المحاولة الأولى.
المعيار يقيس قدرة النموذج على التعامل مع مسائل رياضية عالية الصعوبة تحتاج إلى فهم عميق واستنتاجات دقيقة.
2. MATH-500 (Exact Match)
مجموعة من 500 مسألة رياضيات تغطي موضوعات متنوعة (الجبر، الهندسة، الإحصاء، وغيرها).
يتم تقييم النموذج بناءً على مدى دقة الإجابة (Exact Match)، أي أن الإجابة يجب أن تكون صحيحة تمامًا.
3. CNMO 2024 (Pass@1)
CNMO اختصار لـ China National Mathematics Olympiad، وهي مسابقة رياضيات صينية تركز على مسائل رياضية معقدة.
مثل معيار AIME، يقيس هذا المعيار قدرة النموذج على حل المسائل بشكل صحيح من المحاولة الأولى.
إرسال تعليق