أنثروبيك تُحذر: أدنى تلوث للبيانات قد يُؤثر سلبًا على نماذج الذكاء الاصطناعى

أدنى تلوث للبيانات قد يُؤثر سلبًا على نماذج الذكاء الاصطناعى

كتب مؤنس حواس

الأحد، 12 أكتوبر 2025 04:00 ص

حذّرت أنثروبيك، المطورين من أن حتى عينة بيانات صغيرة مُلوّثة من قِبل جهات مُضلّلة قد تُؤدّي إلى ثغرة في نموذج الذكاء الاصطناعي، حيث أجرت شركة الذكاء الاصطناعي، ومقرّها سان فرانسيسكو، دراسةً مشتركةً مع معهد أمن الذكاء الاصطناعي في المملكة المتحدة ومعهد آلان تورينج، لتجد أن الحجم الإجمالي لمجموعة البيانات في نموذج لغة كبير لا يُؤثّر في حال إصابة جزء صغير منها من قِبل مُهاجم، وتُناقض هذه النتائج الاعتقاد السائد بأن المُهاجمين بحاجة إلى التحكّم في حجم مُتناسب من إجمالي مجموعة البيانات لخلق ثغرات في النموذج.

ونُشرت الدراسة الجديدة، بعنوان "هجمات التخريب على برامج الماجستير في القانون تتطلب عددًا شبه ثابت من عينات التخريب"، على موقع arXiv الإلكتروني، وقد وصفت الشركة هذا التحقيق بأنه "أكبر تحقيق في التسمم حتى الآن"، وتزعم أن 250 مستندًا ضارًا فقط في بيانات ما قبل التدريب يمكنها بنجاح إنشاء باب خلفي في أنظمة إدارة قواعد البيانات (LLMs) يتراوح حجمه بين 600 مليون و13 مليار معلمة.

وركز الفريق على هجوم من نوع الباب الخلفي يُحفّز النموذج على إنتاج بيانات غير مفهومة عند مواجهة رمز تشغيل مخفي محدد، بينما يتصرف بشكل طبيعي، وفقًا لما أوضحته شركة أنثروبيك في منشور. درّب الفريق نماذج بأحجام معلمات مختلفة، بما في ذلك 600 مليون، و2 مليار، و7 مليارات، و13 مليارًا، على بيانات نظيفة ذات مقياس متناسب (أمثل من شينشيلا) مع حقن 100 أو 250 أو 500 مستند ضار لاختبار نقاط الضعف.

ومن المثير للدهشة، سواءً كان نموذج 600 مليون أو نموذج 13 مليارًا، أن منحنيات نجاح الهجوم كانت متطابقة تقريبًا لنفس العدد من المستندات الضارّة، وخلصت الدراسة إلى أن حجم النموذج لا يحمي من الثغرات الأمنية، وأن الأهم هو العدد المطلق للثغرات الأمنية التي واجهها التدريب.

وأفاد الباحثون أيضًا أنه في حين أن حقن 100 مستند ضار لم يكن كافيًا لاختراق أي نموذج بشكل موثوق، إلا أن 250 مستندًا أو أكثر عملت بشكل متسق عبر جميع الأحجام. كما قاموا بتنويع حجم التدريب والبذور العشوائية للتحقق من صحة النتيجة.

ومع ذلك، يتوخى الفريق الحذر: فقد اقتصرت هذه التجربة على منفذ خلفي ضيق نوعًا ما من نوع رفض الخدمة (DoS)، والذي يتسبب في مخرجات غير مفهومة، وليس سلوكيات أكثر خطورة مثل تسريب البيانات أو الشيفرات الخبيثة أو تجاوز آليات الأمان. ولا يزال من غير الواضح ما إذا كانت هذه الديناميكيات تنطبق على الثغرات الأمنية الأكثر تعقيدًا وخطورة في نماذج الحدود.