عرضت شركة xAI، منافس OpenAI التى أسسها إيلون ماسك، الإصدار الأول من Grok الذي يمكنه معالجة المعلومات المرئية، ويعد Grok-1.5V هو نموذج الذكاء الاصطناعي متعدد الوسائط من الجيل الأول للشركة، والذي لا يمكنه معالجة النص فحسب، بل أيضًا "المستندات والرسوم البيانية والمخططات ولقطات الشاشة والصور الفوتوغرافية".
ووفقا لما ذكره موقع "engadget"، فإنه في إعلان XAI، قدم بعض العينات حول كيفية استخدام قدراته في العالم الحقيقي.
يمكنك، على سبيل المثال، أن تعرض عليه صورة لمخطط انسيابي وتطلب من Grok ترجمتها إلى كود Python، واطلب منه كتابة قصة بناءً على رسم، بل واطلب منه شرح ميم لا يمكنك فهمه.
ويأتي الإصدار الجديد بعد أسبوعين فقط من كشف الشركة عن Grok-1.5، حيث تم تصميم هذا النموذج ليكون أفضل في البرمجة والرياضيات من سابقه، وكذلك ليكون قادرًا على معالجة سياقات أطول حتى يتمكن من التحقق من البيانات من المزيد من المصادر لفهم استفسارات معينة بشكل أفضل.
قالت شركة xAI إن مختبريها الأوائل والمستخدمين الحاليين سيتمكنون قريبًا من الاستمتاع بقدرات Grok-1.5V، على الرغم من أنها لم تقدم جدولًا زمنيًا محددًا لبدء تشغيله.
بالإضافة إلى تقديم Grok-1.5V، أصدرت الشركة أيضًا مجموعة بيانات قياسية أطلقت عليها اسم RealWorldQA.
يمكنك استخدام أي من صور RealWorldQA البالغ عددها 700 صورة لتقييم نماذج الذكاء الاصطناعي، حيث يأتي كل عنصر مع أسئلة وأجوبة يمكنك التحقق منها بسهولة، ولكنها قد تعوق النماذج متعددة الوسائط مثل Grok.
وادعت شركة xAI أن تقنيتها حصلت على أعلى الدرجات عندما اختبرتها الشركة مع RealWorldQA ضد المنافسين، مثل OpenAI's GPT-4V وGoogle Gemini Pro 1.5.