كشفت دراسة أجراها معهد ماساتشوستس للتكنولوجيا أن الطريقة التى يقوم بها الذكاء الاصطناعى بجمع البيانات تجعله عنصرى ومتحيز، إذ رصد الباحثون مجموعة من الأنظمة، ووجدوا أن العديد منهم أظهر تحيزًا صادمًا، ثم طور الفريق نظام لمساعدة الباحثين على التأكد من أن أنظمتهم أقل انحيازًا.
وقالت أيرين تشن، وهى طالبة دكتوراه كتبت الورقة مع الأستاذ فى معهد ماساتشوستس للتكنولوجيا ديفيد سونتاج ومعاون ما بعد الدكتوراه فردريك: "إن علماء الحاسب الآلى غالبا ما يسارعون إلى القول إن الطريقة التى تجعل هذه الأنظمة أقل انحيازا هى ببساطة تصميم خوارزميات أفضل، لكن الخوارزميات ليست فقط جيدة مثل البيانات التى تستخدمها، وتظهر أبحاثنا أنه يمكنك فى كثير من الأحيان إحداث فرق أكبر بفضل البيانات الأفضل."
وفى أحد الأمثلة، نظر الفريق فى نظام للتنبؤ بالدخل ووجد أنه من المرجح أن يسيء تصنيف الموظفات، إذ يصفهم بأنهم موظفات ذوات دخل منخفض، بينما الموظفين الذكور يتمتعون بدخل مرتفع ووجدوا أنهم إذا قاموا بزيادة مجموعة البيانات، فإن تلك الأخطاء ستحدث بنسبة أقل 40 فى المئة.
وفى مجموعة بيانات أخرى، وجد الباحثون أن قدرة النظام على التنبؤ بوحدة العناية المركزة كانت أقل دقة للمرضى الآسيويين. ومع ذلك، حذر الباحثون من أن المقاربات القائمة للحد من التمييز ستجعل التنبؤات غير الآسيوية أقل دقة.
وأوضحت تشن أن واحدة من أكبر المفاهيم الخاطئة هى أن المزيد من البيانات تكون دائمًا أفضل، بدلاً من ذلك، يجب أن يحصل الباحثون على المزيد من البيانات من تلك المجموعات الممثلة تمثيلاً ناقصًا.
وقال سونتاج: "إننا نعتبر هذا بمثابة صندوق أدوات لمساعدة مهندسى التعلم الآلى على معرفة الأسئلة التى يجب طرحها من بياناتهم من أجل تشخيص سبب قيام أنظمتهم بإجراء تنبؤات غير عادلة".