كشفت شركة مايكروسوفت عن أداة تجريبية جديدة للذكاء الاصطناعي تسمى VASA-1 يمكنها التقاط صورة ثابتة لشخص ما أو رسم لشخص ما وملف صوتي موجود لإنشاء وجه ناطق نابض بالحياة في الوقت الفعلي، ولديه القدرة على توليد تعبيرات الوجه وحركات الرأس لصورة ثابتة موجودة وحركات الشفاه المناسبة لتتناسب مع خطاب أو أغنية.
وقام الباحثون بتحميل الكثير من الأمثلة على صفحة المشروع، وكانت النتائج تبدو جيدة بما يكفي لخداع الناس وجعلهم يعتقدون أنها حقيقية.
في حين أن حركات الشفاه والرأس في الأمثلة لا تزال تبدو آلية إلى حد ما وغير متزامنة عند الفحص الدقيق، إلا أنه لا يزال من الواضح أنه يمكن إساءة استخدام التكنولوجيا لإنشاء مقاطع فيديو مزيفة بسهولة وسرعة لأشخاص حقيقيين.
و يدرك الباحثون أنفسهم هذه الإمكانية وقرروا عدم إصدار "عرض توضيحي عبر الإنترنت، أو واجهة برمجة تطبيقات، أو منتج، أو تفاصيل تنفيذ إضافية، أو أي عروض ذات صلة" حتى يتأكدوا من أن التكنولوجيا الخاصة بهم "سيتم استخدامها بشكل مسؤول وبما يتوافق مع المعايير المناسبة.
ومع ذلك، لم يذكروا ما إذا كانوا يخططون لتنفيذ ضمانات معينة لمنع الجهات الفاعلة السيئة من استخدامها لأغراض شائنة، مثل إنشاء حملات إباحية مزيفة أو حملات معلومات مضللة.
ويعتقد الباحثون أن تقنيتهم تتمتع بالكثير من الفوائد على الرغم من احتمالية إساءة استخدامها، وقالوا إنه يمكن استخدامه لتعزيز المساواة التعليمية، وكذلك لتحسين إمكانية الوصول لأولئك الذين يعانون من تحديات التواصل، ربما من خلال منحهم إمكانية الوصول إلى الصورة الرمزية التي يمكنها التواصل معهم.
وقالوا إنه يمكنه أيضًا توفير الرفقة والدعم العلاجي لأولئك الذين يحتاجون إليه، ملمحين إلى أنه يمكن استخدام VASA-1 في البرامج التي توفر الوصول إلى شخصيات الذكاء الاصطناعي التي يمكن للأشخاص التحدث إليها.
وفقًا للورقة البحثية المنشورة مع الإعلان، تم تدريب VASA-1 على مجموعة بيانات VoxCeleb2، التي تحتوي على "أكثر من مليون عبارة لـ 6,112 من المشاهير" والتي تم استخلاصها من مقاطع فيديو يوتيوب. على الرغم من أن الأداة تم تدريبها على الوجوه الحقيقية، إلا أنها تعمل أيضًا على الصور الفنية مثل الموناليزا، والتي قام الباحثون بدمجها بشكل مسلي مع ملف صوتي من أداء آن هاثاواي الشهير لمصوري ليل واين، إنه أمر مبهج للغاية ويستحق المشاهدة، حتى لو كنت تشك في مدى فائدة تقنية كهذه.