غوغل لن تجمع بيانات مستخدميها بعد الآن

ميدان - غوغل

فراس اللو

7/6/2017

تُسارع الشركات التقنية الكبيرة إلى جمع كُل ما يُمكنها جمعه من المُستخدم وبياناته المُختلفة مثل موقعه الجغرافي، والأماكن التي يتردد إليها باستمرار، دون تجاهل الملاحظات، والصور، وسجل المُكالمات أيضًا، وهذا لأغراض تخدمها على جبهتين واحدة على صعيد الإعلانات، والأُخرى على صعيد الذكاء الاصطناعي.

ولكيلا تظهر تلك الشركات بمظهر الشخص الشره، فهي تُخبر جميع المُستخدمين دون استنثاء عن جمعها لبياناته وأنه بمُجرد الموافقة على شروط الاستخدام فإنه يُقدّم بياناته على صفيح من ذهب لها، ودون مُقابل أيضًا.

غوغل، وفيسبوك، وأمازون، وحتى آبل، جميعها شركات تقوم بجمع بيانات المُستخدمين، لكن الأسماء الثلاث الأولى في مُعسكر، والأخيرة -آبل- في مُعسكر مُنفصل. وبحسب آخر المُعطيات، قد تنضم غوغل إلى مُعسكر آبل في القريب العاجل.

undefined

الذكاء الاصطناعي والبيانات

عند سؤال أي شركة من شركات المُعسكر الأول عن السبب الذي تجمع بيانات المُستخدمين لأجله ستعلل ذلك بإجابتها حول الذكاء الاصطناعي فورًا ودون تردّد، لكن ما هذا إلا جواب للتهرّب من الحقيقة لأن طُرق ومفاهيم ثانية لزيادة مُستوى الذكاء الاصطناعي موجودة، صحيح أنها حديثة العهد، لكنها وببذل المزيد من الجهود تحوّلت إلى واقع ملموس.

بشكل عام، لا يُمكن للآلة أن تتعلّم دون تقديم البيانات إليها باستمرار، بحيث يقوم نظام التشغيل أو التطبيق بإرسالها إلى خوادم سحابية تقوم بمعالجتها وإرسالها إلى وحدات مُتخصّصة لتحليلها والتعلّم منها، وبالتالي تعمل أكثر من وحدة في نفس الوقت للتعلّم من تلك البيانات.

المُشكلة في هذا النموذج هو أن الآلة قادرة على معرفة الأماكن التي يزورها فراس باستمرار من الأماكن التي يزورها محمد، أو الأرقام التي يتّصل فيها فُلان، أو الرسائل التي يُرسلها باستمرار وأكثر التطبيقات التي يقوم باستخدامها أيضًا. هذا يعني أن أي اختراق يطال تلك المراكز قد يؤدي إلى كوارث لأن المُستخدم حتى لو قام بحذف التطبيقات أو إعادة تثبيت نظام التشغيل من جديد، ستبقى بياناته على تلك الخوادم.

في النموذج الحالي، يجب إرسال البيانات إلى مركز بيانات الشركة المؤلّف بدوره من مجموعة من وحدات تعلّم الآلة للخروج بنتيجة وإضافتها إلى قاعدة المعرفة

قد لا تكون بيانات فراس أو محمد بتلك الأهمّية بالنسبة لغوغل، ولا حتى لبقيّة الشركات، فالأهم هو ما تُقدّمه للآلة التي تحتاج للتعلّم وزيادة مُستوى الذكاء الخاص بها، وليس مصدرها أو إلى من تُشير.

في النموذج الحالي، يجب إرسال البيانات إلى مركز بيانات الشركة المؤلّف بدوره من مجموعة من وحدات تعلّم الآلة للخروج بنتيجة وإضافتها إلى قاعدة المعرفة، وبالتالي يكبر المركز مع مرور الوقت بفضل جميع تلك الوحدات.

المُعسكر الثاني

لفترة طويلة، امتنعت آبل عن جمع بيانات مُستخدميها وإرسالها إلى مراكز بياناتها الخاصّة حفاظًا على الخصوصية، وهذا أدّى بدوره إلى بطء في نمو سيري على سبيل المثال، فعند النظر إليها، وهي التي خرجت للعلم في 2011، والنظر إلى أليكسا من أمازون، سنجد أن الأخيرة أكثر تطوّرًا وذكاءً نوعًا ما لأنها قامت بجمع بيانات المُستخدمين، بينما امتنعت الأولى عن ذلك.

لكن ومنذ إطلاق "آي أو إس 10" في 2016 غيّرت آبل من عاداتها في هذا المجال مُعلنةً استخدام مفهوم جديد في عالم تشفير البيانات يحمل اسم الخصوصية التفاضلية (Differential Privacy)، وهو مفهوم حسابي بحت يُثبت بالأرقام أن استخدامه لا يُعرّض البيانات الأصلية للتسريب.

بشكل عام يُستخدم هذا المفهوم في البيانات الإحصائية، والهدف منه هو معرفة الكثير من التفاصيل عن المجموعة، دون معرفة تفاصيل أي فرد منها. أما عمليًا ومن الناحية التقنية، فاستخدام هذا الأمر تم تقسيمه إلى ثلاث مراحل؛ الأولى تتم فيها تشفير البيانات باستخدام خوارزميات لا يُمكن عكسها، لينتج عن ذلك مجموعة محارف عشوائية لا معنى لها. أما في الثانية، فيتم أخذ جزء من تلك البيانات فقط، لننتقل للمرحلة الثالثة التي يتم فيها إضافة مجموعة من البيانات العشوائية كطبقة حماية إضافية.

في هذه الحالة لن تستطيع الآلة الربط ما بين تسجيل التواجد في مكان ما وبين صاحبه، فهي ستأخذ معلومة تسجيل الدخول فقط وتُقدّمها للخوارزميات لتعلّم مهارة جديدة أيًا كانت^[1].

قامت شركة نتفليكس بإصدار قاعدة بيانات خاصّة بآراء مُستخدميها حول الأفلام التي تعرضها، وقامت بحذف البيانات الشخصية لهم، لتكون النتيجة مجموعة من الأعمدة والصفوف تُشير إلى الفلم فقط لا غير، لكن مع مقارنتها بآراء على مواقع أخرى تم التعرف على حسابات المستخدمين (رويترز)

وهُنا قد يتبادر سؤال لدى البعض: لماذا لا يتم حذف بيانات المُستخدم من الأصل قبل إرسالها إلى خوادم الشركات، وبالتالي لن تدخل في دوّامة الحلول المُختلفة والمُعقّدة؟ هذا الأمر غير مُمكن في عالم الحاسب، أو مُمكن لكن له مخاطر كثيرة.

في 2007 قامت شركة نتفليكس (Netflix) بإصدار قاعدة بيانات خاصّة بآراء وتقييمات مُستخدميها حول الأفلام التي تعرضها، لكنها قامت قبل ذلك بحذف البيانات الشخصية، لتكون النتيجة مجموعة من الأعمدة والصفوف التي تُشير إلى الفلم فقط لا غير. قام مجموعة من الباحثين بمطابقة تلك القاعدة مع بيانات من مواقع ثانية مُتخصّصة بهذا الأمر، أي رصد بعض التعليقات الموجودة في نتفليكس وبعضها الآخر الموجود في موقع وليكن "آي إم دي بي" (IMDB)، ليتمكّنوا بهذا الأسلوب البسيط من ربط التعليق مع صاحبه الأصلي، وبالتالي تعرّضت خصوصية المُستخدمين للخطر [2].

وما هذا إلا جزء بسيط من المُمارسات التي يُمكن لأي جهة القيام بها، فأسلوب المُطابقة من أبسط الأساليب، ولهذا السبب لن تُغامر أي شركة في تقديم البيانات دون تشفيرها حتى لو قامت بإزالة أية إشارات شخصية منها.

غوغل وتعلّم الآلة التشاركي

أيًا كان المُعسكر، فالعملية قائمة على تقديم البيانات إلى خادم أو مركز بيانات رئيسي لمعالجتها ورفع مُستوى ذكاء الآلة. لكن في جعبة غوغل ما هو جديد في هذا المجال، وهو شيء يُدّعى بالتعلّم الآلي التشاركي (Federated Learning).

ستقوم غوغل بمعالجة البيانات داخل الجهاز نفسه عوضا عن معالجتها في مراكز البيانات، لذلك ترغب باعتبار كل هاتف ذكي أو حاسب لوحي على أنه وحدة معالجة

ترغب غوغل في اعتبار كل هاتف ذكي أو حاسب لوحي على أنه وحدة مُعالجة، خصوصًا أن تلك الأجهزة تعمل بالفعل بمعالجات قوية وذات قدرات عالية جدًا. بالتالي ستقوم بمعالجة البيانات داخل الجهاز نفسه عوضًا عن مُعالجتها في مراكز البيانات.

لتحقيق هذا الأمر ستقوم غوغل بإنشاء وحدات جاهزة بسيطة مُرتبطة مع مركز بيانات كبير، وستقوم الأجهزة الذكية بتحميل تلك الوحدات من أجل تقديم البيانات لها وتعليمها، وعندما تشعر أنها تعلّمت شيئا جديدا ستقوم بتلخيصه ومن ثم إرساله على هيئة تحديث لمركز البيانات. هذا يعني إن أي شخص سيقوم فيما بعد بتحميل تلك الوحدات سيحصل على نسخة أكثر ذكاء مع مرور الوقت لأنها تتعلّم على أكثر من جهاز، ثم تُرسل ما تعلّمته للمركز الرئيسي.

ولحماية التحديثات المُرسلة، ستقوم غوغل باستخدام بروتوكول تشفير خاص يمنع أي جهة من فك تشفير التحديث باسثتناء الخادم المسؤول. وبالتالي يقوم الخادم بأخذ ذلك التحديث وجمعه مع بقية التحديثات الموجّهة لتلك الوحدة، ثم اعتمادها رسميًا وإتاحتها للتحميل من قبل الجميع، وكل هذا يعني أن نسبة الآمان عالية جدًا [3].

مثال بسيط على الاستخدام القديم للتعلّم الذاتي والجديد التشاركي؛ سابقًا كان الجهاز يُرسل لمركز البيانات معلومات مثل أن زيد يتناول التفّاح فقط وهذا لمدّة أسبوع كامل، ستقوم الوحدات بأخذ تلك المعلومات ومحاولة تعلّم شيء جديد منها. بعدها سيرسل الهاتف بيانات تفيد بأن زيداً فقد من وزنه 3 كيلوغرامات خلال تلك الفترة. بالربط بين بيانات زيد سيتم استنتاج أن تناول التفّاح فقط لمدة أسبوع يؤدّي إلى خسارة الوزن، وهذه حقيقة ستُسجّل في قاعدة المعرفة ويتم التأكّد منها باستخدام وحدات ثانية.

أخذت غوغل بعبن الاعتبار أن إرسال البيانات قد يؤدي إلى استهلاك البطارية وأيضا باقة الإنترنت، لذلك لن يقو الجهاز بإرسال البيانات إلا أثناء وصله بالشاحن واتصاله بشبكة إنترنت مفتوحة

أما باستخدام التعلّم الذاتي التشاركي الذي يتم داخل جهاز المُستخدم فالوحدة داخل الجهاز تقوم بتسجيل أن زيدا يتناول التفّاح فقط، ثم تقوم برصد تغيّر في وزنه، لتتعلّم أن تناول التفّاح يُنقص الوزن. النتيجة واحدة باستخدام كلا النظامين، لكن في الثاني سيقوم الجهاز بإرسال الوحدة التي تحتوي على النتيجة فقط والقائمة على فكرة أن حمية التفاح تُنقص الوزن، بينما في الأولى تعلّم النظام أن زيداً أكل التفّاح لمدة أسبوع، وأن زيداً خسر وزنه، وهذه بيانات يُمكن بيعها فيما بعد لشركات الإعلانات.

غوغل أخذت بعين الاعتبار أن إرسال البيانات قد يؤدي إلى صرف بطّارية الجهاز، واستهلاك باقّة الإنترنت أيضًا، دون نسيان إثقال كاهل المُعالج ولهذا السبب طوّرت خوارزميات تقوم بضغط الوحدات والبيانات الموجودة بداخلها قدر المُستطاع سواءً عند الإرسال أو الاستقبال. إضافة إلى ذلك، لن تقوم الأجهزة بالتواصل مع مركز البيانات إلا عندما يكون الجهاز غير مُستخدم، وموصولا بالشاحن، إضافة لاتصاله بشبكة إنترنت مفتوحة.

التطبيق الأول لمفهوم التعلّم الذاتي التشاركي سيكون في لوحة مفاتيح "جي بورد" المتوفرة لنظام أندرويد، حيث ستقوم بتحليل بيانات المُستخدم على جهازه دون إرسال أي شيء للخوادم مثلما هو الحال في النسخ القديمة. عندما يبدأ المُستخدم بكتابة أي شيء سيقوم النظام بعرض اقتراحات لكلمات تُكمل الجملة، وبناءً على ما يختاره تُحاول الوحدات تعلّم أسلوبه وطريقته في الحديث لعرض كلمات تُناسبه فيما بعد، وكل هذا سوف يتم الآن على جهاز المُستخدم.

غوغل إلى مُعسكر آبل

يُمكن تصوّر الوحدات داخل مراكز البيانات على أنها مُجلّدات بعناوين ولتكن إنقاص الوزن على سبيل المثال. عند استخدام أسلوب المُعسكر الأول يُمكن فتح المُجلّد وسحب مُستند التفّاح يؤدي إلى فقدان الوزن ومعرفة الأشخاص الذين قاموا بهذا الأمر ومعرفة بياناتهم شخصية. أما باستخدام مفهوم غوغل الجديد فإنه وبفتح المُجلّد سنجد نفس المُستند، لكن فقط معلومات مثل تناول التفّاح لمدّة سبعة أيام، وهذا شيء لا يرغب به مُحامو الخصوصية، وُهنا نأتي لمفهوم الخصوصية التفاضلية المُستخدم في آبل.

جي بورد من غوغل

غوغل تنوي مُستقبلًا منع الهندسة العكسية، أي منع فتح المُجلّد ومعرفة الكثير من التفاصيل، فالهدف هو أن 1+1 =2، بغض النظر عن كون الرقم 1 الأول حصلنا عليه من "0.5 + 0.5" أو من "0.25 + 0.75″، ولهذا السبب ستلجأ لاستخدام الخصوصية التفاضلية لإضافة طبقة من البيانات العشوائية لمنع الآلة من تعلّم بيانات غير ضرورية في جميع الحالات.

ما كانت تقوم به غوغل وغيرها من شركات المُعسكر الأول يُمكن تشبيهه بالرياضي الذي يرغب بالتحضير لبطولة في رياضة كمال الأجسام، فتلك الشركات منعت بيع المعدّات الرياضية بالكامل، وبالتالي يحتاج الرياضي للذهاب إلى صالة التمرين واللعب هناك فقط تحت أعيّن المُدرّبين والمراقبين أيضًا. لكن ووفقًا للتعلّم التشاركي، فإن الرياضي أصبح بإمكانه شراء الآلات والتمرّن في المنزل والذهاب إلى صالة التمرين فقط لعرض جسمه والحصول على ملاحظات المُشرفين أو تقييم المُراقبين بغض النظر عن التمارين أو الآلية التي أوصلته إلى هذه النتيجة.

ما وصلت إليه غوغل في هذا المجال ما زال في بداياته، واستخدامه على نطاق واسع سيكون في لوحة جي بورد فقط، لكن هناك مشاكل أُخرى تسعى الشركة إلى حلّها مع مرور الوقت لرفع مستوى ذكاء الكثير من الأنظمة دون الحاجة لجمع بيانات عن المُستخدمين مثلما كان الحال سابقًا.

ستبقى غوغل من أبرز اللاعبين في المُعسكر الأول، ولفترة طويلة كذلك، لكنها تسعى لابتكار مُعسكرها الخاص الذي قد يسمح لها بالحفاظ على خصوصية مُستخدميها خصوصًا في الخدمات التي ليست بحاجة لربط البيانات مع صاحبها.

المصدر : الجزيرة