يدعم أحدث نموذج لغة لميتا Llama 3.2، حالات استخدام تتعلق باستدلال الصور، مثل فهم المستندات بما في ذلك الرسوم البيانية والمخططات، وإنشاء شرح توضيحي للصور، ومهام التثبيت البصري مثل تحديد مواقع الأشياء في الصور استنادًا إلى الأوصاف الطبيعية.
تُمكّن هذه النماذج المطورين من بناء تطبيقات ذاتية التحكم تعمل على الأجهزة الشخصية مع الحفاظ على الخصوصية، حيث لا تخرج البيانات من الجهاز أبداً، وعلى سبيل المثال، يمكن لتطبيق من هذا النوع تلخيص آخر 10 رسائل واردة، استخراج عناصر المهام، واستدعاء الأدوات لإرسال دعوات عبر التقويم لاجتماعات متابعة مباشرةً.
وتشغيل هذه النماذج محليًا يوفر ميزتين رئيسيتين، وهما أولاً، يمكن أن تصبح المطالبات والاستجابات فورية تقريبًا نظرًا لأن المعالجة تتم محليًا.
ثانيًا، الحفاظ على الخصوصية، حيث لا يتم إرسال البيانات مثل الرسائل ومعلومات التقويم إلى السحابة، مما يجعل التطبيق أكثر خصوصية بشكلٍ عام.
وبما أن المعالجة تتم محليًا، يمكن للتطبيق التحكم بشكل واضح في أي الاستفسارات تبقى على الجهاز وأيها تحتاج إلى معالجتها بواسطة نموذج أكبر في السحابة.
ويمكن لنموذج Llama 3.2 استدلال الجواب بناءً على رسم بياني متاح وتقديم الإجابة بسرعة، وفي مثال آخر، يمكن للنموذج أن يستدل باستخدام خريطة، ويساعد في الإجابة على أسئلة مثل متى يصبح المسار أكثر انحدارًا؟ أو ما هي مسافة مسار معين على الخريطة؟
بالإضافة إلى ذلك، يمكن لنماذج 11B و90B أن تسد الفجوة بين الإبصار واللغة عن طريق استخراج تفاصيل من صورة، وفهم المشهد، ثم صياغة جملة أو جملتين يمكن استخدامها كشرح توضيحي للصور للمساعدة في سرد القصة.
أما النماذج الأخف وزنًا، مثل1B و3B، فهي قادرة بشكل كبير على توليد النصوص بلغات متعددة واستدعاء الأدوات.