طور الباحثون طرقًا لإخفاء البيانات في قواعد البيانات للحفاظ على الخصوصية ومساعدتها على أن تكون دقيقة إحصائيًا
يثير عصر البيانات الضخمة العديد من التساؤلات المتعلقة بالخصوصية نظرا لسهولة جمع وتوزيع البيانات عن الفرد. خصوصية البيانات (الخصوصية التفاضلية) هي طريقة تتيح نشر معلومات عن المستخدمين على الإنترنت دون الإضرار بخصوصيتهم، وهي الطريقة التي تستخدمها شركات مثل أبل وجوجل ومايكروسوفت. وباستخدامه، يمكن إضافة مكون عشوائي إلى الخوارزميات ويمكن حجب هوية الأفراد وبياناتهم. وبهذه الطريقة، من الممكن إضافة بيانات المستخدم التي تم جمعها من أجهزة مثل الهواتف الذكية وأجهزة iPad وأجهزة الكمبيوتر المحمولة إلى قاعدة بيانات مجمعة عن مستخدمين إضافيين والتعلم منها خصائص جميع المستخدمين مع تقليل الضرر على خصوصية كل منهم.
ما هو السؤال؟ كيف تحافظ على خصوصية البيانات ودقتها؟
تتعامل البروفيسور كاترينا ليجات من كلية الهندسة وعلوم الكمبيوتر في الجامعة العبرية وفريقها مع خصوصية البيانات وتطوير نماذج رياضية (خوارزميات ونظريات وصيغ) يمكن من خلالها استخدام المعلومات المتعلقة بالأشخاص بأمان. ووفقا لها، "في بحثنا، نقوم بتطوير أدوات يمكن من خلالها استخراج البيانات الحساسة من قواعد البيانات ونشرها (على سبيل المثال، حول الصحة والطب وعمليات البحث على Google)، على سبيل المثال لجعلها في متناول الباحثين للبحث، وفي وفي نفس الوقت نحاول أن نفهم ما هي القيود وكيف يمكن حماية الناس. في النهاية، لا يمكن إطلاق معلومات من قاعدة بيانات دون التأثير على خصوصية الأفراد الموجودين في قاعدة البيانات، لكن لغة خصوصية البيانات تتيح التحكم في مستوى انتهاك الخصوصية والحد منه وموازنة الاحتياجات. "
بالإضافة إلى ذلك، تتعامل البروفيسور ليجات وفريقها مع العدالة الخوارزمية - وهو مجال بحث يهدف إلى تحديد وتصحيح التحيزات والأخطاء التي ترتكبها الخوارزميات، والتي تساهم في التمييز. على سبيل المثال، قد ترفض البنوك التي تقوم بمسح البيانات باستخدام الخوارزميات المزيد من طلبات الحصول على القروض العقارية والقروض المقدمة من النساء، وقد تتجاهل الأنظمة الطبية سرطان الجلد لدى المرضى ذوي البشرة الداكنة. وهذا، حتى لو لم يقصد المطورون ذلك، وذلك بسبب التحيز في البيانات المستخدمة لتدريب الخوارزمية.
"على غرار تعريف الخصوصية، من الممكن أن نحدد للخوارزميات التي تحلل البيانات ماهية العدالة (الهدف المنشود) بطريقة رياضية وبالتالي تكون أكثر دقة في القرارات التي يتم اتخاذها ومنع الظلم. على سبيل المثال، لدى بنك إسرائيل قاعدة بيانات جمعها حول البيانات الائتمانية للسكان، ويمكن للشركات الخاصة مسحها باستخدام الخوارزميات لتحديد التصنيف الائتماني. إذا لم نكن حذرين، فقد يقومون بتحديد المشاركين في قاعدة البيانات بناءً على الحالة الاجتماعية والأصل والإقامة ومسقط الرأس ومستوى الدخل، حتى لو تم حذف أرقام الهوية، وتسريب معلومات حساسة عنهم مثل وضعهم المالي. وبالإضافة إلى مشكلة الخصوصية، فإن القرارات التي سيتم اتخاذها - مثل منح النساء تصنيفاً ائتمانياً منخفضاً - قد تكون تمييزية. لذلك، نحاول في بحثنا أن نفهم كيف يمكن تغيير الخوارزميات بحيث تقلل الضرر الذي يلحق بالخصوصية وتحدد مشاكل العدالة، ونقوم بتطوير أدوات ومقاييس رياضية لتصفية البيانات وإخفائها"، يوضح البروفيسور ليجات.
ونحن نحاول أن نفهم كيف يمكن تغيير الخوارزميات حتى تتمكن من تقليل الضرر الذي يلحق بالخصوصية وتحديد المشاكل المتعلقة بالعدالة، كما نعمل على تطوير أدوات ومقاييس رياضية لتصفية البيانات وإخفائها.
المجال الآخر الذي تتعامل فيه الأستاذة ليجات وفريقها هو الإحصائيات ذات الأساليب التكيفية - استخدام المعلومات بطريقة تمثل العالم الحقيقي. وبحسب موشيه شانفيلد، طالب الدكتوراه في فريق البروفيسور ليجات، "في كثير من الحالات، يستخدم الباحثون بيانات مجموعات سكانية صغيرة (عينات) لغرض عدة أسئلة بحثية، يتم اختيارها بناء على الإجابات الواردة على الأسئلة السابقة من تلك العينة، وبالتالي قد يؤدي إلى استنتاجات لا تمثل بقية السكان. ولمنع ذلك، نضيف الضوضاء (الإزعاج) إلى الخوارزميات التي "تخفي" العينة، مما يقلل من فرصة اختيار الأسئلة التي لا تمثل فيها العينة، وبالتالي ضمان الدقة الإحصائية في البيانات. على سبيل المثال، عندما يقوم الباحثون بمسح البيانات لمعرفة ما هي نسبة المرضى الذين يعانون من مرض معين (احتمال الإصابة به)، فإن النتائج التي يحصلون عليها على تأثير متغيرات مثل العمر والطول والوزن قد تقودهم إلى فرضية الذي يجمع جميع المتغيرات بطريقة تناسب العينة ولكن ليس لبقية السكان. عند إضافة الضوضاء النسبية إلى الخوارزمية، فإنها توفر نسبة مختلفة قليلاً تؤثر قليلاً على دقة الإجابة، ولكنها تقلل بشكل كبير من فرصة فرضية غير تمثيلية".
ويهدف أحدث بحث للباحثين، والذي فاز بمنحة من المؤسسة الوطنية للعلوم، إلى تحسين ضمان دقة النتائج. "إن مقدار الضجيج المطلوب لإخفاء التصنيف الائتماني للمليارديرات، على سبيل المثال، أعلى بكثير من الآخرين. لكن احتمال وجودهم في عينة عامة السكان منخفض. إذا كنت تريد ضمان خصوصية المشاركين، فأنت بحاجة إلى فحص الجميع. ولضمان دقة النتائج أضفنا كمية أقل من التشويش إلى الخوارزميات. بهذه الطريقة سيكون من الممكن الحصول على نتائج تمثل جميع السكان"، يوضح البروفيسور ليجات.
الحياة نفسها:
البروفيسور كاترينا ليجات، ولدت ونشأت في نيو هامبشاير، الولايات المتحدة الأمريكية ("لقد نشأت في الغابة ومن هنا يأتي اهتمامي بالخصوصية. لا يوجد أشخاص، توجد أشجار")، وتعيش حاليًا في القدس.
موشيه شانفيلد، الذي ولد ونشأ كأرثوذكسي متطرف ودرس في مدرسة الخليل الدينية - الكنيست الإسرائيلية، طرح سؤالًا ("لقد سعيت دائمًا إلى الحقيقة ويبدو أنني وجدتها في الرياضيات")، ويعيش حاليًا في بيت المقدس.
المزيد عن الموضوع على موقع العلوم: