كشفت OpenAI، الشركة التي تقف وراء ChatGPT، عن أول نموذج لتحويل النص إلى فيديو يعمل بالذكاء الاصطناعي (AI) Sora، وتدعي الشركة أنها تستطيع إنشاء مقاطع فيديو تصل مدتها إلى 60 ثانية، ويعد هذا أطول من أي من منافسيها في هذا القطاع، بما في ذلك Lumiere من Google، والذي تم الكشف عنه الشهر الماضي.
ويتوفر Sora حاليًا لأعضاء الفريق الأحمر وخبراء الأمن السيبراني الذين يختبرون البرامج على نطاق واسع لمساعدة الشركات على تحسين برامجهم وبعض منشئي المحتوى، فيما تخطط شركة الذكاء الاصطناعي أيضًا لتضمين البيانات الوصفية لـ Coalition for Content Provenance and Authenticity (C2PA) في المستقبل بمجرد نشر النموذج في منتج OpenAI.
وعند الإعلان عن مولد الفيديو AI في منشور على X (المعروف سابقًا باسم Twitter)، قالت الشركة: "يمكن لـ Sora إنشاء مقاطع فيديو تصل مدتها إلى 60 ثانية تتميز بمشاهد مفصلة للغاية، وحركة الكاميرا المعقدة، وشخصيات متعددة ذات مشاعر نابضة بالحياة".
ومن المثير للاهتمام أن طول الفيديو الذي تدعي أنه ينتجه يزيد عن عشرة أضعاف ما يقدمه منافسوها، ويستطيع Lumiere من Google إنشاء مقاطع فيديو مدتها 5 ثوانٍ، في حين يمكن لـ Runway AI وPika 1.0 إنشاء مقاطع فيديو مدتها 4 ثوانٍ و3 ثوانٍ على التوالي.
كما شارك حساب X الخاص بـ OpenAI والرئيس التنفيذي Sam Altman العديد من مقاطع الفيديو التي تم إنشاؤها بواسطة Sora، بالإضافة إلى المطالبات المستخدمة في إنشائها، وتظهر مقاطع الفيديو الناتجة مفصلة للغاية مع حركة سلسة، وهو أمر عانت منه مولدات الفيديو الأخرى في السوق إلى حد ما.
ووفقًا للشركة، يمكنها إنشاء مشاهد معقدة بشخصيات متعددة، وزوايا كاميرا متعددة، وأنواع محددة من الحركة، وتفاصيل دقيقة للموضوع والخلفية، وهذا ممكن لأن نموذج تحويل النص إلى فيديو يستخدم كلاً من الموجه وكذلك "كيفية وجود هذه الأشياء في العالم المادي".
ويعد Sora هو في الأساس نموذج انتشار يستخدم بنية محولات مشابهة لنماذج GPT، وبالمثل، فإن البيانات التي تستهلكها وتولدها يتم تمثيلها في مصطلح يسمى التصحيحات، والتي تشبه مرة أخرى الرموز المميزة في نماذج إنشاء النص، التصحيحات عبارة عن مجموعات من مقاطع الفيديو والصور، مجمعة في أجزاء صغيرة، وفقًا لما تحدده الشركة.
و باستخدام هذه البيانات المرئية، مكّن OpenAI من تدريب نموذج إنشاء الفيديو على فترات ودرجات دقة ونسب عرض إلى ارتفاع مختلفة، بالإضافة إلى إنشاء تحويل النص إلى فيديو، يستطيع Sora أيضًا التقاط صورة ثابتة وإنشاء فيديو منها.
ومع ذلك، فهو لا يخلو من العيوب أيضًا، وذكرت OpenAI على موقعها على الإنترنت أن "النموذج الحالي به نقاط ضعف، وقد يجد صعوبة في محاكاة فيزياء مشهد معقد بدقة، وقد لا يفهم حالات محددة من السبب والنتيجة، وعلى سبيل المثال، قد يأخذ شخص ما قضمة من ملف تعريف الارتباط، ولكن بعد ذلك، قد لا يكون هناك علامة قضمة على ملف تعريف الارتباط.
ولضمان عدم استخدام أداة الذكاء الاصطناعي لإنشاء محتوى مزيف عميق أو أي محتوى ضار آخر، تعمل الشركة على إنشاء أدوات للمساعدة في اكتشاف المحتوى المضلل، وتخطط أيضًا لاستخدام البيانات الوصفية لـ C2PA في مقاطع الفيديو التي تم إنشاؤها، بعد اعتماد الممارسة الخاصة بنموذج DALL-E 3 مؤخرًا.
كما أنها تعمل أيضًا مع أعضاء الفريق الأحمر، وخاصة خبراء المجال في مجالات المعلومات الخاطئة والمحتوى الذي يحض على الكراهية والتحيز، لتحسين النموذج، وفي الوقت الحاضر، إنه متاح فقط لأعضاء الفريق الأحمر وعدد صغير من الفنانين التشكيليين والمصممين وصانعي الأفلام للحصول على تعليقات حول المنتج.