يعد التعرف على الكلام ترسًا مهمًا فى آلات الذكاء الاصطناعى فى شركات التكنولوجيا، والتى تعمل غالبيتها على تشغيل المساعدات الرقمية على هواتفنا وفى السيارات وفى مكبرات الصوت الذكية فى منازلنا، ولكن، على الرغم من انتشارها فى كل مكان، لا يزال التعرف على الكلام قيد التقدم.
إلا أن فيس بوك توصل مؤخرًا إلى خطوة كبير فى الطريقة التى يدرب بها هذه الأنظمة على تعلم لغات جديدة، حيث تقول الشركة إنها طورت طريقة لبناء أدوات التعرف على الكلام التى لا تتطلب بيانات مكتوبة.
وفقًا لـ فيس بوك، يمكن لنظامه الجديد فك قيود التكنولوجيا من اعتمادها على إدخال النص إلى كلام، حيث تتضمن المهمة التى تستغرق وقتًا طويلاً الاستماع إلى ساعات من الصوت وتدوينها، وهى عملية رتيبة يجب تكرارها لكل لغة، فى حين أن نظام فيس بوك "غير الخاضع للإشراف" يتعلم فقط من صوت الكلام والنص غير المقترن لمنحه إحساسًا أفضل بما يبدو عليه الاتصال البشري.
ويعتمد نموذج فيس بوك بشكل أساسى على حلقة التغذية الراجعة بين شبكة الخصومة التوليدية (GAN) المكونة من "مولد" و "أداة تمييز"، و الأول يبث تمثيلات لأنماط الكلام التى تم تحميلها والتى تبدو مثل هراء كامل حتى يتم وضعها من خلال شبكة التمييز المقابلة، والتى تعمل كمترجم من نوع ما.
وفى الوقت نفسه، يُدخل فيس بوك نصًا إضافيًا مكتوبًا بواسطة البشر لمساعدة المُنشئ على استخلاص الفرق بين النتائج المحوسبة ونتائج العالم الحقيقي. تتكرر هذه العملية حتى يتطابق إخراج المولد مع النص الحقيقي.
ويقول فيس بوك إن طريقته سمحت له بإنشاء أنظمة التعرف على الكلام دون أى مجموعات بيانات مشروحة، واختبرت الشركة بالفعل النموذج - المعروف باسم Wav2vec- U (U تعنى غير مراقب) - فى السواحيلية وقيرغيزستان (التى يتحدث بها آسيا الوسطى جمهورية قيرغيزستان) وتتار القرم، وكلها تفتقر إلى أدوات التعرف على الكلام عالية الجودة بسبب إلى تباين فى بيانات التدريب.
وأظهرت اختبارات فيس بوك أن النظام تسبب فى أخطاء أقل بنسبة 63 فى المائة من الطريقة التالية الأفضل غير الخاضعة للرقابة، ويضيف أن الأداة دقيقة مثل الأنظمة الخاضعة للإشراف منذ بضع سنوات، ومن أجل تسريع تطويره، شارك فيس بوك رمز Wav2vec- U على GitHub.