اكتشف التوافق بواسطة علامة زودياك
ما الذي يمكن للباحثين العثور عليه من بين 32 مليون عنوان URL تم إصداره للتو على Facebook لـ Social Science One؟
تدقيق الحقائق

بقلم سيرجي نيفينز / شاترستوك
العلوم الاجتماعية واحد ، وهي اللجنة غير الهادفة للربح التي تم إطلاقها في عام 2018 لإنشاء شراكات ملموسة بين الأكاديميين والمؤسسات الغنية بالبيانات مثل Facebook ، لديها الآن 32 مليون رابط فردي مستخرج من شبكة وسائل التواصل الاجتماعي الخاصة بمارك زوكربيرج لإجراء الأبحاث على أساسها.
بعد تأخير غير متوقع لمدة عام تقريبًا ، حدث شيء أدى إلى إنشاء ملف منزعج مع مؤسسي المشروع ، تلقى تحالف الباحثين أخيرًا من Facebook ما يعتبر 'أحد أكبر مجموعات الروابط من أي وقت مضى للبحث الأكاديمي. '
هذا ما قاله سولومون ميسينج ، المدير السابق في مختبر البيانات بمركز بيو للباحثين والمدير الحالي لعلوم البيانات في العلوم الاجتماعية 1 ، لـ IFCN.
الآن ، ستتمكن فرق الباحثين المختارين من جميع أنحاء العالم من استخدام مجموعة البيانات لتحديد الاتجاهات والأنماط والموضوعات الشائعة في عالم المحتوى على Facebook.
وفقًا للنظام الأساسي ، تتضمن مجموعة البيانات عدد المرات التي تمت فيها مشاركة عناوين URL علنًا ، وتاريخ مشاركتها لأول مرة ، وتاريخ التحقق من صحة أول مرة ، والبلد الذي تمت مشاركتها فيه كثيرًا ، وملخصًا للمحتوى الفعلي الواردة في URL.
ويتضمن أيضًا بيانات عن تفاعل المستخدم ، بما في ذلك عدد المرات التي قام فيها المستخدم بوضع علامة على عنوان URL على أنه يحتوي على أخبار كاذبة وعدد المرات التي تمت فيها مشاركة عنوان URL دون النقر عليه فعليًا.
قال Facebook إنه اختار نقاط البيانات هذه لأنه يُعتقد على نطاق واسع أنها مؤشرات على معلومات مضللة. من الآن فصاعدًا ، يمكن للباحثين استخدامها لفهم نوع الموضوعات التي تهيمن على النظام الأساسي أو لإنشاء نماذج التعلم الآلي بناءً على هذه الأنماط.
للوصول إلى مجموعة من حوالي 32 مليون عنوان URL ، يجب أن تتم الموافقة على مشاريع الأكاديميين من قبل لجنة Social Science One. قد يتم منح المقترحات التي يتم قبولها التمويل والبيانات والمزايا الأخرى. ويمكن نشر جميع الأوراق الناتجة حسب رغبة الباحث دون أي قيود إضافية من فيسبوك أو الهيئة.
قال Messing: 'نحن نواصل إتاحة بيانات إضافية بطريقة تحمي خصوصية الأشخاص'. 'ستسمح مجموعة البيانات هذه للباحثين بالإجابة على أسئلة مهمة حول المعلومات الخاطئة ودور وسائل التواصل الاجتماعي في المجتمع.'
التوقعات عالية.
تأخير في تسليم البيانات
في أبريل 2018 ، عندما Facebook أعلن كانت شراكة مع الأكاديميين لتزويدهم ببيانات قيمة لأبحاث المعلومات المضللة ، وكان من المتوقع أن مجموعات البيانات هذه سوف خذ بعض الوقت للتحضير. لكن ليس كل هذا الوقت.
في أغسطس ، Buzzfeed News ذكرت أن ممولي Social Science One ، بما في ذلك صندوق الديمقراطية ومؤسسة William and Flora Hewlett ومؤسسة John S. and James L. Knight Foundation ومؤسسة Charles Koch وشبكة Omidyar ، يهددون بالانسحاب من المشروع بسبب التأخير.
وفقًا للتقرير ، فقد أعطوا Facebook مهلة نهائية في 30 سبتمبر لمشاركة مجموعات البيانات التي وعدوا بها أو سينتهي المشروع.
ومع ذلك ، في يناير ، أخطرت Social Science One في منشور مدونة أن Facebook سيحتاج إلى مزيد من الوقت لإصدار مجموعة بيانات URL مستشهدة بمخاوف الخصوصية.
'لا يجب أن يلتزم Facebook فقط باللائحة العامة الجديدة لحماية البيانات للاتحاد الأوروبي ، بالإضافة إلى قوانين الخصوصية المماثلة في الولايات القضائية حول العالم ، ولكن يجب أيضًا أن يمتثل لمرسوم موافقة Facebook مع لجنة التجارة الفيدرالية الأمريكية ،' مشاركة مدونة اقرأ. 'نظرًا للطبيعة غير المسبوقة لمشروعنا ، يتحرك Facebook ببطء وحذر لضمان امتثال مشروعنا لجميع الإرشادات القانونية ذات الصلة.'
تم إصدار مجموعة البيانات في منتصف سبتمبر ، قبل الموعد النهائي الذي ذكره Buzzfeed.
كيف تم التعامل مع مخاوف الخصوصية؟
وفقًا لـ Facebook ، تمت إضافة خصوصية تفاضلية إلى عناوين URL التي دخلت مجموعة البيانات. هذا يعني أنه تم إخفاء مساهمة أي فرد في البيانات.
قالت فيسبوك إنها وصفت الخصوصية التفاضلية بأنها 'ضوضاء إحصائية' إضافية توفر للناس طبقة إضافية من الحماية وتحميهم من الهجمات الإلكترونية.
ما هو البحث الذي أصبح ممكنا من خلال مجموعة البيانات هذه؟
تم بالفعل استخدام إصدار سابق من مجموعة بيانات URL ، والذي تم توفيره للباحثين المعتمدين عبر منصة المراقبة الاجتماعية CrowdTangle ، في دراسة حول السلوك المنسق غير الأصيل لمشاركة الروابط في الفترة التي تسبق الانتخابات الأوروبية لعام 2019 في إيطاليا.
الآن ، سيتمكن الباحثون من استخدام مجموعة البيانات الكاملة لفهم أنواع المحتوى والمواضيع السائدة على Facebook بشكل أفضل. سيكونون قادرين على تحديد الأنماط في ما تتم مشاركته بمرور الوقت ، ويمكنهم على الأرجح بناء نماذج للتعلم الآلي ترصد المعلومات الخاطئة.
قال فيسبوك إن الباحثين يدركون منذ فترة طويلة الحاجة إلى مجموعة بيانات كبيرة ومتنوعة لتدريب نموذج التعلم الآلي هذا. تعد مجموعة بيانات URL هذه من بين أكبر مجموعات البيانات الموجودة ، حيث تبلغ 7 غيغابايت وتحتوي على ما يقرب من 32 مليون عنوان URL وحوالي 544 مليون قيمة خلية.
قد يكون الأكاديميون قادرين على تحديد كيفية ارتباط المحتوى الشائع بالأحداث السياسية وطرح المنتجات على Facebook. تشمل الموضوعات الأخرى المحتملة للدراسة كيف يلعب الاستقطاب والسياسيون ودورات الأخبار دورًا في انتشار المعلومات المضللة على المنصة.