أصدرت شركة أبل نموذج للذكاء الاصطناعي جديد مفتوح المصدر لتحرير الصور يسمى تحرير الصور الموجهة MLLM (MGIE)، والذي يستخدم نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) لتفسير الأوامر المستندة إلى النص عند معالجة الصور.
وفقا لما ذكره موقع "engadget"، تتمتع الأداة بالقدرة على تحرير الصور بناءً على النص الذي يكتبه المستخدم.
وعلى الرغم من أنها ليست الأداة الأولى التي يمكنها القيام بذلك، إلا أن "التعليمات البشرية تكون في بعض الأحيان مختصرة جدًا بحيث لا يمكن للطرق الحالية التقاطها ومتابعتها"، كما يقول المشروع.
طورت الشركة MGIE مع باحثين من جامعة كاليفورنيا، الذى يتمتع بالقدرة على تحويل المطالبات النصية البسيطة أو الغامضة إلى تعليمات أكثر تفصيلاً ووضوحًا يمكن لمحرر الصور نفسه اتباعها.
بالإضافة إلى إجراء تغييرات كبيرة على الصور، يمكن لـ MGIE أيضًا قص الصور وتغيير حجمها وتدويرها، بالإضافة إلى تحسين السطوع والتباين وتوازن الألوان، كل ذلك من خلال المطالبات النصية.
يمكنه أيضًا تعديل مناطق معينة من الصورة ويمكنه، على سبيل المثال، تعديل شعر وعينين وملابس الشخص الموجود بها، أو إزالة العناصر الموجودة في الخلفية.
وأصدرت Apple النموذج من خلال GitHub، ولكن يمكن للمهتمين أيضًا تجربة العرض التوضيحي الذي يتم استضافته حاليًا على Hugging Face Spaces.
لم توضح شركة Apple بعد ما إذا كانت تخطط لاستخدام ما تعلمته من هذا المشروع في أداة أو ميزة يمكنها دمجها في أي من منتجاتها.
تم أضافة تعليقك سوف يظهر بعد المراجعة