ذكر تقرير engadged إن إنشاء تحويل النص إلى صورة هو عملية حسابية ساخنة في الوقت الحالى ، حيث يطلق برنامج Craiyon من OpenAI (المعروف سابقًا باسم DALL-E mini) و Imagen AI من Google العنان لموجات المد والجزر من الأعمال الفنية الرائعة التي تم إنشاؤها إجرائيًا والتي تم توليفها من خيال الإنسان والكمبيوتر.
وكشفت Meta أنها طورت محركًا لتوليد الصور بالذكاء الاصطناعى، وتأمل أن يساعد في بناء عوالم غامرة في Metaverse وإنشاء فن رقمى عالى.
وهناك الكثير من العمل فى إنشاء صورة بناءً على عبارة "هناك حصان في المستشفى" عند استخدام جيل من الذكاء الاصطناعي. أولاً ، يتم تغذية العبارة نفسها من خلال نموذج محول ، وهي شبكة عصبية تحلل كلمات الجملة وتطور فهمًا سياقيًا لعلاقتها ببعضها البعض، وبمجرد أن يحصل على جوهر ما يصفه المستخدم ، سيقوم الذكاء الاصطناعي بتجميع صورة جديدة باستخدام مجموعة من شبكات GAN (شبكات الخصومة التوليدية).
وبفضل الجهود التي بذلت في السنوات الأخيرة لتدريب نماذج ML على مجموعات صور عالية الدقة وموسعة بشكل متزايد مع أوصاف نصية جيدة التنظيم ، يمكن للذكاء الاصطناعي الحديث اليوم إنشاء صور واقعية لمعظم الهراء الذي تطعمهم به. وتختلف عملية الإنشاء المحددة بين أنظمة الذكاء الاصطناعي
على سبيل المثال ، تستخدم Imagen من Google نموذج Diffusion "الذي يتعلم تحويل نمط من النقاط العشوائية إلى صور" في مدونة الكلمات الرئيسية لشهر يونيو، وتبدأ هذه الصور أولاً بدقة منخفضة ثم تزداد درجة دقتها تدريجياً." من ناحية أخرى ، يقوم Parti AI من Google "أولاً بتحويل مجموعة من الصور إلى سلسلة من إدخالات الكود ، على غرار قطع الألغاز، ويتم بعد ذلك ترجمة مطالبة نصية معينة إلى إدخالات الرمز هذه ويتم إنشاء صورة جديدة ".
في حين أن هذه الأنظمة يمكنها إنشاء معظم أي شيء موصوف لها ، ولا يمتلك المستخدم أي تحكم في الجوانب المحددة لصورة الإخراج، وصرح مارك زوكربيرج ، الرئيس التنفيذي لشركة Meta ، في مدونة أمس : "لتحقيق إمكانات الذكاء الاصطناعي في دفع التعبير الإبداعي إلى الأمام ، يجب أن يكون الأشخاص قادرين على تشكيل المحتوى الذي ينشئه النظام والتحكم فيه".
ويقوم "مفهوم البحث الاستكشافي للذكاء الاصطناعي" للشركة ، والذي يطلق عليه اسم Make-A-Scene ، بذلك من خلال دمج الرسومات التي أنشأها المستخدم في عملية إنشاء الصور المستندة إلى النص ، مما ينتج عنه صورة تبلغ 2048 × 2048 بكسل، وتسمح هذه المجموعة للمستخدم ليس فقط بوصف ما يريده في الصورة ولكن أيضًا إملاء التكوين العام للصورة أيضًا، وقال زوكربيرج: "إنه يوضح كيف يمكن للناس استخدام كل من النصوص والرسومات البسيطة للتعبير عن رؤيتهم بمزيد من التحديد ، باستخدام مجموعة متنوعة من العناصر ، والأشكال ، والترتيبات ، والعمق ، والتركيبات ، والهياكل".
وأثناء الاختبار ، اختارت لجنة من المقيِّمين البشريين بأغلبية ساحقة صورة النص والرسم على الصورة النصية فقط باعتبارها أفضل محاذاة للرسم الأصلي (99.54 بالمائة من الوقت) ومتوافقة بشكل أفضل مع وصف النص الأصلي بنسبة 66% من الوقت، ولزيادة تطوير التكنولوجيا ، شاركت Meta العرض التوضيحي لـ Make-A-Scene مع فناني الذكاء الاصطناعي البارزين بما في ذلك صوفيا كريسبو وسكوت إيتون وألكسندر ريبين ورفيك أنادول ، الذين سيستخدمون النظام ويقدمون التعليقات، ولا توجد أي معلومات عن موعد إتاحة الذكاء الاصطناعي للجمهور.