عندما تصبح بوكيمون معيارًا: جدلية شفافية تقييم نماذج الذكاء الاصطناعى

لعبة بوكيمون
لعبة بوكيمون
كتبت رنا أمين

في مفارقة لافتة، لم تسلم حتى لعبة بوكيمون الشهيرة من الجدل الدائر حول معايير تقييم نماذج الذكاء الاصطناعي، فقد انتشر الأسبوع الماضي منشور على منصة X بشكل واسع، زاعمًا أن نموذج Gemini من تطوير جوجل تفوق على نموذج Claude من شركة Anthropic في التقدم داخل ثلاثية ألعاب بوكيمون الأصلية.

ووفقًا للمنشور، تمكن Gemini من الوصول إلى مدينة “Lavender Town”، بينما ظل Claude عالقًا في “Mount Moon” منذ أواخر فبراير.

لكن، ما لم يُذكر في المنشور هو أن Gemini كان يملك أفضلية تقنية. فقد أشار عدد من مستخدمي Reddit إلى أن المطور المسؤول عن بث Gemini على منصة Twitch قام بتطوير خريطة مصغّرة مخصصة تساعد النموذج في التعرف على العناصر داخل اللعبة، مثل الأشجار القابلة للقطع. هذه الأداة تقلل من الحاجة لتحليل الصور قبل اتخاذ القرارات، مما يمنح Gemini تفوقًا واضحًا.

ورغم أن استخدام لعبة بوكيمون كمعيار أداء للذكاء الاصطناعي يُعد أمرًا شبه هزلي، إلا أنه يسلط الضوء على نقطة جوهرية: كيفية تنفيذ التقييم يمكن أن تؤثر بشكل كبير على النتائج النهائية.

فعلى سبيل المثال، أعلنت شركة Anthropic عن نتيجتين مختلفتين لنموذج Claude 3.7 Sonnet في اختبار SWE-bench Verified، المصمم لتقييم قدرات النماذج على البرمجة. سجل النموذج دقة بلغت 62.3%، بينما ارتفعت إلى 70.3% عند استخدام هيكل مخصص طورته الشركة.

وفي خطوة مشابهة، قامت شركة Meta مؤخرًا بتعديل نسخة من نموذجها Llama 4 Maverick خصيصًا لتحسين أدائه في معيار LM Arena. واللافت أن النسخة العادية من النموذج سجلت أداءً أقل بكثير في نفس التقييم.

هذه الحالات تكشف عن مشكلة أعمق: معايير التقييم ليست مثالية أصلًا، واستخدام أدوات مخصصة أو غير قياسية قد يزيد من تعقيد المقارنات بين النماذج الجديدة، مما يجعل عملية تقييم الذكاء الاصطناعي أقل شفافية وأكثر جدلية بمرور الوقت.

 

Trending Plus

اليوم السابع Trending

الأكثر قراءة

ترامب يهين سيناتور ديمقراطى: أصبح فلسطينيا.. ويؤكد: لا أتجاهل إسرائيل

وزارة التعليم: إضافة 20% من درجات العربى والتاريخ بالثانوية الدولية للمجموع

الأهلي يتقدم 4 مراكز في تصنيف أندية أفريقيا.. وغياب الزمالك وبيراميدز

الوكرة القطري يرفض طلب الأهلي ويتمسك بعودة حمدي فتحي بعد كأس العالم

الأهلي يناقش مع ريفيرو استمرار النحاس وشوقي في جهازه المعاون


رسالة عاجلة من وزارة الخارجية للمصريين المقيمين في ليبيا

القبض على اللاعب على غزال لتنفيذ أحكام قضائية ضده للمرة الثانية

اليونان تصدر تحذيرا من احتمال حدوث تسونامى عقب الزلزال

مواعيد مباريات الزمالك القادمة فى الدورى

دفاع الفنان محمد غنيم: إنهاء إجراءات إعادة المحاكمة وحبس موكلى لحين تحديد جلسة


مواعيد امتحانات الفصل الدراسى الثانى 2025 لطلاب الجيزة

الإدارية العليا تلغى حكم أول درجة بشأن تابلت طلاب الثانوية: عهده ويجب إعادته

بيراميدز يكشف حقيقة الحصول على توقيع رامى ربيعة

محمد صلاح يتصدر هدافي الدوريات الخمس الكبرى ومبابى يطارد بقوة

سيناريوهات تنتظر الفنان محمد غنيم بعد القبض عليه فى واقعة تهديد طليقته

قائمة المنتخبات المتأهلة لكأس العالم للشباب في تشيلي..مصر الأبرز فى أفريقيا

من القاهرة إلى مكة قلوبٌ تُلبّى وخدمة لا تغيب.. بعثة الحج المصرية تجهز وجبات متكاملة العناصر الغذائية لضيوف الرحمن.. أطعمة ساخنة وجافة ومرطبات بالمشاعر المقدسة.. ومنظومة تعين الحاج على أداء الفريضة

اشتباكات مسلحة وفوضى أمنية فى ليبيا.. فرار أخطر السجناء من سجون طرابلس

تفاصيل زلزال "نص الليل".. سكان القاهرة والمحافظات يشعرون بهزة أرضية بقوة 6.4 ريختر.. البحوث الفلكية: قوى نسبيًا.. واستغرق أقل من 20 ثانية.. ورصدنا هزتين ارتداديتين.. والهلال الأحمر: لم ترد بلاغات بوقوع أضرار

زلزال جديد.. الشبكة القومية ترصد أول هزة ارتدادية بقوة 2.69 ريختر

لا يفوتك


بدء اجتماع الحكومة الأسبوعى

بدء اجتماع الحكومة الأسبوعى الأربعاء، 14 مايو 2025 02:24 م

المزيد من Trending Plus
Youm7 Applcation Icons
اليوم السابع اليوم السابع اليوم السابع اليوم السابع اليوم السابع اليوم السابع هواوى