قامت OpenAI وGoogle بتدريب نماذج الذكاء الاصطناعي الخاصة بهما على النص المكتوب من مقاطع فيديو YouTube، ما قد ينتهك حقوق الطبع والنشر لمنشئي المحتوى، وفقًا لصحيفة نيويورك تايمز.
التقرير الذي يصف المدى الذي قطعته شركات OpenAI وGoogle وMeta من أجل تعظيم كمية البيانات التي يمكنهم تغذيتها لأنظمة الذكاء الاصطناعي الخاصة بهم، يستشهد بالعديد من الأشخاص الذين لديهم معرفة بممارسات الشركات، ويأتي ذلك بعد أيام فقط من تصريح الرئيس التنفيذي لموقع YouTube، نيل موهان، في مقابلة مع Bloomberg Originals، أن استخدام OpenAI المزعوم لمقاطع فيديو YouTube لتدريب مولد تحويل النص إلى الفيديو الجديد، Sora، يتعارض مع سياسات المنصة.
وفقًا لصحيفة نيويورك تايمز، استخدمت OpenAI أداة Whisper للتعرف على الكلام لنسخ أكثر من مليون ساعة من مقاطع فيديو YouTube، والتي تم استخدامها بعد ذلك لتدريب GPT-4.
وذكرت المعلومات سابقًا أن OpenAI استخدمت مقاطع فيديو وبودكاست على YouTube لتدريب نظامي الذكاء الاصطناعي، وبحسب ما ورد كان رئيس OpenAI جريج بروكمان من بين الأشخاص في هذا الفريق.
ووفقًا لقواعد Google، لا يُسمح بـ "القصاص أو التنزيل غير المصرح به لمحتوى YouTube"، حسبما صرح مات براينت، المتحدث باسم Google، لصحيفة نيويورك تايمز، قائلاً أيضًا إن الشركة لم تكن على علم بأي استخدام من هذا القبيل من قبل OpenAI.
ومع ذلك، يزعم التقرير أن هناك أشخاصًا في Google كانوا يعرفون ولكنهم لم يتخذوا أي إجراء ضد OpenAI لأن Google كانت تستخدم مقاطع فيديو YouTube لتدريب نماذج الذكاء الاصطناعي الخاصة بها.
وقالت جوجل لصحيفة نيويورك تايمز إنها تفعل ذلك فقط مع مقاطع الفيديو من المبدعين الذين وافقوا على المشاركة في برنامج تجريبي. تواصلت Engadget مع Google وOpenAI للتعليق.
يزعم تقرير نيويورك تايمز أيضًا أن جوجل قامت بتعديل سياسة الخصوصية الخاصة بها في يونيو 2022 لتغطي استخدامها للمحتوى المتاح للجمهور على نطاق أوسع، بما في ذلك مستندات جوجل وجداول بيانات جوجل، لتدريب نماذج ومنتجات الذكاء الاصطناعي الخاصة بها. وقال براينت لصحيفة نيويورك تايمز إن هذا لا يتم إلا بإذن المستخدمين الذين اختاروا ميزات جوجل التجريبية، وأن الشركة "لم تبدأ التدريب على أنواع إضافية من البيانات بناءً على تغيير اللغة هذا".