كل ما تريد معرفته عن نموذج ذكاء اصطناعى الجديد "Ferret UI"

الذكاء الاصطناعى - أرشيفية
الذكاء الاصطناعى - أرشيفية
كتب مؤنس حواس

نشر باحثو شركة أبل ورقة بحثية أخرى حول نماذج الذكاء الاصطناعي (AI)، وينصب التركيز هذه المرة على الفهم والتنقل عبر واجهات مستخدم الهواتف الذكية (UI)، حيث تسلط الورقة البحثية، التي لم تتم مراجعتها بعد، الضوء على نموذج لغة كبير (LLM) يُطلق عليه اسم Ferret UI، والذي يمكنه تجاوز رؤية الكمبيوتر التقليدية وفهم شاشات الهواتف الذكية المعقدة.

ولا تعد هذه الورقة هي الأولى حول الذكاء الاصطناعي التي ينشرها قسم الأبحاث في شركة التكنولوجيا العملاقة، حيث نشرت بالفعل ورقة بحثية حول LLMs متعددة الوسائط (MLLMs) وأخرى حول نماذج الذكاء الاصطناعي الموجودة على الجهاز.

وتم نشر نسخة ما قبل الطباعة من الورقة البحثية على موقع arXiv، وهو مستودع مفتوح الوصول عبر الإنترنت للأوراق العلمية، وتحمل الورقة عنوان "Ferret-UI: فهم واجهة المستخدم المتنقلة الأرضية مع LLMs متعددة الوسائط" وتركز على توسيع حالة استخدام MLLMs.

ويسلط الضوء على أن معظم نماذج اللغات ذات القدرات المتعددة الوسائط لا يمكنها فهم ما هو أبعد من الصور الطبيعية وتكون وظائفها "مقيدة"، وينص أيضًا على الحاجة إلى نماذج الذكاء الاصطناعي لفهم الواجهات المعقدة والديناميكية مثل تلك الموجودة على الهاتف الذكي.

ووفقًا للورقة البحثية، تم تصميم Ferret UI "لتنفيذ مهام إحالة وتأريض دقيقة خاصة بشاشات واجهة المستخدم، مع تفسير تعليمات اللغة المفتوحة والتصرف بناءً عليها ببراعة، " بعبارات بسيطة، لا يستطيع نموذج لغة الرؤية معالجة شاشة الهاتف الذكي بعناصر متعددة تمثل معلومات مختلفة فحسب، بل يمكنه أيضًا إخبار المستخدم عنها عند مطالبته باستعلام.

واستنادًا إلى الصورة التي تمت مشاركتها في الورقة، يمكن للنموذج فهم عناصر واجهة المستخدم وتصنيفها والتعرف على الرموز، ويمكنه أيضًا الإجابة على أسئلة مثل "أين رمز التشغيل" و"كيف يمكنني فتح تطبيق التذكيرات"، وهذا يدل على أن الذكاء الاصطناعي ليس قادرًا على شرح الشاشة التي يراها فحسب، بل يمكنه أيضًا التنقل إلى أجزاء مختلفة من جهاز iPhone بناءً على المطالبة.

ولتدريب Ferret UI، قام باحثو أبل بإنشاء بيانات ذات تعقيدات مختلفة بأنفسهم، وقد ساعد هذا النموذج في تعلم المهام الأساسية وفهم العمليات ذات الخطوة الواحدة. "بالنسبة للمهام المتقدمة، نستخدم GPT-4 [40] لإنشاء البيانات، بما في ذلك الوصف التفصيلي وإدراك المحادثة والتفاعل معها والاستدلال الوظيفي، وأوضحت الورقة أن هذه المهام المتقدمة تعمل على إعداد النموذج للمشاركة في مناقشات أكثر دقة حول المكونات المرئية، وصياغة خطط عمل مع وضع أهداف محددة في الاعتبار، وتفسير الغرض العام من الشاشة.

 

Trending Plus

اليوم السابع Trending

الأكثر قراءة

مراجعات سريعة.. طلاب الثانوية العامة يستعدون لامتحان اللغة الأجنبية الأولى

عيد ميلاد فريدة فهمي.. رحلة "فراشة الاستعراض" التي أبهَرت العالم

65 مليون دولار تنعش خزائن الفرق العربية فى كأس العالم للأندية

مقترح فى الزمالك بعدم خوض الفريق تدريباته بميت عقبة.. اعرف السبب

الطقس اليوم.. ارتفاع بدرجات الحرارة والعظمى بالقاهرة 37 درجة والإسكندرية 31


رسميا.. تحديد أولى مواجهات ربع نهائى كأس العالم للأندية 2025

الأهلي يجتمع مع ريبيرو اليوم لمناقشة ملف الصفقات الجديدة والراحلين

ملخص وأهداف مباراة بنفيكا ضد تشيلسي في ثمن نهائي كأس العالم للأندية

منتخب شباب اليد يواجه ألمانيا اليوم لحسم المركز الخامس فى بطولة العالم

وزارة التعليم تواصل تصحيح امتحان اللغة العربية للثانوية العامة 2025


دي ماريا يحرز هدف تعادل بنفيكا ضد تشيلسي 1-1 فى الدقيقة 95.. فيديو

محمد شيحة يحصل على درجة الدكتوراة فى "المحاسبة عن الاستثمارات البشرية فى المنشآت الرياضية"

توقف مباراة بنفيكا ضد تشيلسي في مونديال الأندية لسوء الأحوال الجوية

منتخب إنجلترا يتوج بلقب بطل أمم أوروبا للشباب بثلاثية ضد ألمانيا.. فيديو

شاهد صورة سائق النقل المتسبب فى حادث الطريق الإقليمى ومصرع 19 حالة

محمد صلاح يهرب من عدسات المصورين فى بودروم التركية.. وقناع وقبعة للخصوصية

إليسا تخطف الأنظار فى أحدث ظهور.. والجمهور: احلويتى "صور"

تحذير عاجل من هيئة الأرصاد الجوية لسكان هذه المحافظات

مفيدة شيحة تحتفل بزواج ابنتها منة الله عماد وسط حضور كثيف.. فيديو وصور

7 معلومات كشفتها النيابة العامة بتحقيقات حادث الإقليمي بالمنوفية.. إنفوجراف

لا يفوتك


المزيد من Trending Plus
Youm7 Applcation Icons
اليوم السابع اليوم السابع اليوم السابع اليوم السابع اليوم السابع اليوم السابع هواوى