كل ما تريد معرفته عن نموذج ذكاء اصطناعى الجديد "Ferret UI"

الجمعة، 12 أبريل 2024 05:00 ص

الذكاء الاصطناعى - أرشيفية

كتب مؤنس حواس

اضف تعليقاً واقرأ تعليقات القراء

نشر باحثو شركة أبل ورقة بحثية أخرى حول نماذج الذكاء الاصطناعي (AI)، وينصب التركيز هذه المرة على الفهم والتنقل عبر واجهات مستخدم الهواتف الذكية (UI)، حيث تسلط الورقة البحثية، التي لم تتم مراجعتها بعد، الضوء على نموذج لغة كبير (LLM) يُطلق عليه اسم Ferret UI، والذي يمكنه تجاوز رؤية الكمبيوتر التقليدية وفهم شاشات الهواتف الذكية المعقدة.

ولا تعد هذه الورقة هي الأولى حول الذكاء الاصطناعي التي ينشرها قسم الأبحاث في شركة التكنولوجيا العملاقة، حيث نشرت بالفعل ورقة بحثية حول LLMs متعددة الوسائط (MLLMs) وأخرى حول نماذج الذكاء الاصطناعي الموجودة على الجهاز.

وتم نشر نسخة ما قبل الطباعة من الورقة البحثية على موقع arXiv، وهو مستودع مفتوح الوصول عبر الإنترنت للأوراق العلمية، وتحمل الورقة عنوان "Ferret-UI: فهم واجهة المستخدم المتنقلة الأرضية مع LLMs متعددة الوسائط" وتركز على توسيع حالة استخدام MLLMs.

ويسلط الضوء على أن معظم نماذج اللغات ذات القدرات المتعددة الوسائط لا يمكنها فهم ما هو أبعد من الصور الطبيعية وتكون وظائفها "مقيدة"، وينص أيضًا على الحاجة إلى نماذج الذكاء الاصطناعي لفهم الواجهات المعقدة والديناميكية مثل تلك الموجودة على الهاتف الذكي.

ووفقًا للورقة البحثية، تم تصميم Ferret UI "لتنفيذ مهام إحالة وتأريض دقيقة خاصة بشاشات واجهة المستخدم، مع تفسير تعليمات اللغة المفتوحة والتصرف بناءً عليها ببراعة، " بعبارات بسيطة، لا يستطيع نموذج لغة الرؤية معالجة شاشة الهاتف الذكي بعناصر متعددة تمثل معلومات مختلفة فحسب، بل يمكنه أيضًا إخبار المستخدم عنها عند مطالبته باستعلام.

واستنادًا إلى الصورة التي تمت مشاركتها في الورقة، يمكن للنموذج فهم عناصر واجهة المستخدم وتصنيفها والتعرف على الرموز، ويمكنه أيضًا الإجابة على أسئلة مثل "أين رمز التشغيل" و"كيف يمكنني فتح تطبيق التذكيرات"، وهذا يدل على أن الذكاء الاصطناعي ليس قادرًا على شرح الشاشة التي يراها فحسب، بل يمكنه أيضًا التنقل إلى أجزاء مختلفة من جهاز iPhone بناءً على المطالبة.

ولتدريب Ferret UI، قام باحثو أبل بإنشاء بيانات ذات تعقيدات مختلفة بأنفسهم، وقد ساعد هذا النموذج في تعلم المهام الأساسية وفهم العمليات ذات الخطوة الواحدة. "بالنسبة للمهام المتقدمة، نستخدم GPT-4 [40] لإنشاء البيانات، بما في ذلك الوصف التفصيلي وإدراك المحادثة والتفاعل معها والاستدلال الوظيفي، وأوضحت الورقة أن هذه المهام المتقدمة تعمل على إعداد النموذج للمشاركة في مناقشات أكثر دقة حول المكونات المرئية، وصياغة خطط عمل مع وضع أهداف محددة في الاعتبار، وتفسير الغرض العام من الشاشة.