العين الإلكترونية.. كيف ترصد التقنية تفاعلات الحركة؟
أصبحت الطائرات الصغيرة بدون طيّار -"درون" (Drone)- قادرة الآن على الإقلاع والهبوط بشكل آلي، مع إمكانية اللحاق بالمُستخدم وتصويره والتعرّف على حركة يده كذلك، وهذا بفضل الكاميرا المُلحقة بها. وتحوّلت السيّارات هي الأُخرى لأجهزة ذكية وأصبحت قادرة على السير لوحدها في الطرقات مع إلمام كامل بالوسط المُحيط بها، وهذا أيضا بفضل مجموعة من الكاميرات التي ترصد كل شيء.
قد تبدو الكاميرا في الأمثلة السابقة -وفي غيرها من الأمثلة- وكأنها حاسّة جديدة أضافت بُعدا جديدا للحواسب، لكنها في ذات الوقت مُجرّد جزء بسيط جدا من منظومة كاملة مسؤولة عن معالجة ما تلتقطه الكاميرا، وهي منظومة تُعرف باسم الرؤية الحاسوبية (Computer Vision).
العالم "مارفين مينسكي" (Marvin Minsky)) المُتخصّص في مجال الذكاء الاصطناعي) طلب من طُلّابه في صائفة ذلك العام أن يقوموا بحل واحدة من القضايا التي تنقص الحواسب، وهي الرؤية الحاسوبية، وأعطاهم الصيف كاملا للعمل لأنه من وجهة نظره ليس بالأمر الذي يتطلّب الكثير من الوقت(1). لكن وبعد مرور 50 سنة تقريبا، ما زال نفس الأشخاص وغيرهم يعملون يوميا لتطوير الرؤية الحاسوبية دون وجود جواب واحد منطقي حول كيف ترى الحواسب.
بشكل عام، تلتقط الحواسب -عبر الكاميرات أو المُستشعرات- معلومات وبيانات الألوان وتحصل عليها كمصفوفة تصف كل نقطة (بيكسل)، لذا فإن ما يُقدّم لها هو مُجرّد ألوان لا معنى لها عندما تكون فردية بالنسبة للخوارزميات على أقل تقدير، لكن وبفضل وجود الذكاء الاصنطاعي وتعلّم الآلة، كان لا بُد من مُحاولة تعليم الحاسب ومُساعدته لتحويل تلك المصفوفات إلى بيانات مفهومة بالنسبة له.
الغاية الرئيسة للعُلماء كانت تكرار وظائف الدماغ والرؤية لدى الإنسان، ومن هنا تم تقسيم فكرة الرؤية الحاسوبية إلى ثلاث نقاط رئيسة تبدأ من مُحاكاة العين، وهذا أمر صعب، ومن ثم مُحاكاة الفَص المسؤول عن الرؤية في الدماغ، وهذا أمر صعب جدا، وأخيرا مُحاكاة الدماغ كاملا، وهذا أمر شبه مُستحيل في الوقت الراهن(2).
وبعد أعوام طويلة من البحث والسير في ذلك النفق المُظلم، تم تبسيط الفكرة لتجنّب تقييد الجهود في أشياء صعبة، فمُحاكاة العين يُمكن استبدالها بالخروج بآلية تسمح للحاسب بالرؤية، أما مُحاكاة الفَص المسؤول عن الرؤية فيمكن استبدالها بإنشاء آلية تسمح بوصف ما يراه الحاسب، وأخيرا، لسنا بحاجة لمُحاكاة وظائف الدماغ بقدر ما نحن بحاجة لخوارزميات تُساعد الحاسب على فهم ما يراه بعد وصفه(2).
هذا بدوره ينقل العُلماء للنقطة الثانية وهي إدراك ما يراه الحاسب، فالإنسان عند إرسال عنصر يتحرّك بسرعة كبيرة باتجاهه سيقوم برد فعل سريع لتجنّبه، لكن لو تم إرسال نفس العنصر بنفس السرعة دون أن يراه الشخص فلن تكون هناك ردّة فعل، تماما مثلما هو الحال عند الحاسب أو الرجل الآلي، لكن الفرق الوحيد هنا أن الرجل الآلي حتى لو شاهد عبر الكاميرا ذلك العنصر فإنه لا يدرك خطورته أو ضرورة التحرّك لتجنّب الإصابة. السبب وراء رد فعل الإنسان هو إدراك العنصر المُصوّب باتجاهه، عكس الحاسب الذي لا يُدرك أي شيء.
عندما سلك العُلماء طريق مُحاكاة الفَص المسؤول عن الرؤية، وجدوا أن الدماغ مبني بالأساس على وظيفة الرؤية عبر العين، أي أن نسبة كبيرة جدا من الطبقات والمساري العصبية مُتخصّصة بنقل السيّالات العصبية بسرعة كبيرة لتفسير ما تراه العين.
عند رؤية الإنسان لشيء ما تبدأ طبقات الدماغ المُختلفة بتقاسم مهمّة إدراكه، فطبقة تقوم أولا بتفسيره على هيئة أنماط، لتقوم أخرى بتحليل تلك الأنماط وتحويلها إلى أشكال مألوفه كدوائر أو مُربّعات، بعدها يتم التعمّق قليلا ووصف تلك الأشكال من ناحية اللون، في وقت تكون فيه طبقات ثانية مسؤولة عن تحديد حجم تلك الأشكال وعن مُحاولة ربطها بعناصر سبق للشخص وأن شاهدها من قبل(3).
المفهوم السابق يُعرف بمفهوم التحليل من الأسفل إلى الأعلى، أو يُمكن تسميته التحليل من الأبسط إلى الأعقد، ولهذا السبب ابتعد المُهندسون عنه واستخدموا مفهوما آخر عكسه تماما هو مفهوم التحليل من الأعلى إلى الأسفل، وهو مفهوم يُخبر الحاسب أن العنصر الفلاني بهذا الشكل، لذا ابحث عن هذا الشكل فقط في الصور القادمة.
الطريق الذي سلكه المُهندسون كان منطقيا عند الرغبة في تفسير بعض الأشياء البسيطة، تماما كتمرير الصور أمام أعين طفل صغير لاختيار الصور التي تحتوي على قطّة بداخلها، لكن في الصور المُركّبة والمُعقّدة سيفشل الحاسب في العثور على العناصر خصوصا عند وجودها بحجم كبير أو صغير، ولهذا السبب وجدوا أن مُحاكاة آلية عمل الدماغ أفضل بكثير ضمن شروط أبسط تتمثّل في العودة لاستخدام مفهوم التحليل من الأبسط إلى الأعقد فقط.
العودة إلى تحليل العناصر من الأسفل إلى الأعلى تسمح للحاسب بالتعرّف على العناصر أيا كان عدد الصور أو الإطارات، وهو ما يسمح للحاسب في وقتنا الحالي بالتعرّف على العناصر بشكل أو بآخر، صحيح أن الخطأ موجود، لكن نسبته تتضاءل كثيرا مع مرور الوقت. النجاح في هذا المفهوم يتم باستخدام عمليات برمجية وحسابية مُعقّدة كثيرة جدا، وهذا أمر يتطلّب قدرات حاسوبية عالية تسعى الشركات الكُبرى لاحتوائها قدر الإمكان باستخدام التقنيات الحديثة، رفقة خوارزميات التعلّم الذاتي للآلة والذكاء الاصطناعي كذلك.
بالنسبة للإنسان فإن إدراك وفهم الأشياء يجري بعد ملايين المحاولات والأخطاء، أي التعلّم بالخطأ والتجريب، وهذا تماما ما يحدث في خوارزميات التعلّم الذاتي التي تقوم بالمرور على ملايين الصور يوميا، دون نسيان الصور التي يقوم المُهندسون بتقديمها مع تحديد محتوياتها لتوسيع قاعدة المعرفة الخاصّة بالحاسب، وبالرؤية الحاسوبية بطبيعة الحال.
مُستشعر البصمة الموجود على الأجهزة الذكية هو نوع من أنواع الرؤية الحاسوبية، فهو قادر على التمييز بين البصمة وبين أي طبقة جلد أُخرى، كما أن الكاميرا ذاتها مُزوّدة بأنظمة كثيرة من أنظمة الرؤية الحاسوبية على غرار التعرّف على الوجه للتركيز عليه، أو التعرّف على الأشخاص داخل الصورة مع كتابة أسمائهم بشكل آلي مثلما يحدث في فيسبوك. قارئات الأكواد على المنتجات في المحلات التجارية ليست سوى نوع آخر من أنواع الرؤية الحاسوبية، وتقنية عين الصقر في كُرة المضرب، أو تقنية تجاوز الكرة لخط المرمى في كرة القدم ما هي إلا استخدامات أُخرى لنفس المفهوم.
وبدرجة أكثر تقعيدا لدينا أنظمة القيادة الذاتية التي وصفها تيم كوك مؤخّرا بكونها الأعقد على مستوى الذكاء الاصطناعي، فهي تحتاج لإدراك الكثير من العناصر في نفس الوقت، ومن ثم تمريرها لخوارزميات لاتخاذ القرار المناسب في أجزاء من الثانية، لأن أي تأخير أو تجاهل لأي عنصر قد يقضي على سيّارة أُخرى وعلى المتواجدين بداخلها(4). وبما أن الحاسب لا يقدر على فهم الصور بعد التقاطها فإن أنظمة الرؤية تقوم بتقسيم العملية لأربعة أجزاء(5)(6)، تبدأ من التعرّف على العناصر داخل المشهد (Recognition)، فهي تحاول أولا تحديد العناصر مثل وجود شجرة، أو كلب، أو طاولة، أما القسم الثاني فهو إعادة البناء (Reconstruction)، وهو ممتع جدا.
خرائط غوغل على سبيل المثال توفّر خرائط ثلاثية الأبعاد لبعض المباني والشوارع، وهي خرائط قد يعتقد البعض أنها التُقطت بهذا الشكل، لكن الواقع عكس ذلك تماما، فالكاميرات تقوم بالتقاط المشهد بشكل ثنائي الأبعاد، لكن وبفضل الخوارزميات يتم الربط بين الصور المُختلفة بعد ترتيبها حسب الموقع الجغرافي لينتج عن ذلك مُجسّمات ثلاثية الأبعاد داخل الخرائط.
الجزء الثالث هو التتبّع (Registration)، وأبسط مثال عليه هو تتبّع رأس المُستخدم في سناب شات، وأعقد مثال له هو تتبّع العناصر التي تسير إلى جانب سيّارة ذاتية القيادة لتجنّب الاصطدام بها، أما الجزء الأخير فهو بعنوان التعلّم غير المُقيّد (Reorganization)، وأفضل مثال على هذا المفهوم هو ما يجري في مُختبرات شركة غوغل. تطوّر الشركة أنظمة آلية لالتقاط العناصر ونقلها من مكان لآخر أيا كانت تلك العناصر، عكس الأذرع الآلية الموجودة في المعامل التي تنقل البضائع أو المواد من نقطة أ إلى نقطة ب، لأن تلك الأذرع مُصمّمة لهذا الغرض، بينما تقوم غوغل وأنظمتها الآلية بنقل العناصر بعد التقاط صورة لها ومحاولة معرفة ماهيّتها.
مع مرور الوقت أصبحت تلك الأذرع داخل مُختبرات غوغل قادرة على معرفة أن الإسفنج مثلا يُمكن حمله من خلال إدخال إصبع فيه، ومن ثم استخدام الإصبع الآخر لإحكام القبضة، أما لحمل الكرة البلاستيكية فيجب فتح الأصابع ووضعها فوق الكُرة قبل ضمّها من جديد لتنجح العملية.
لو أردنا تبسيط الأمور فإن مفهوم الرؤية الحاسوبية لا يعتمد فقط على تصوير العناصر، فهذه مُشكلة محلولة عبر الكاميرات والمُستشعرات المُختلفة، لكن المفهوم واسع جدا ويمر بثلاث مراحل رئيسة لأن الهدف هو أن يتم تصوير المشهد لتحليله والقيام بأمر بناء على النتيجة، وإلا ستبقى الحواسب -والرجال الآليين بطبيعة الحال- بنسبة من الغباء ولن تكون قادرة على إلحاق الأذى بالبشر، فهي قد تكون مُدرّبة على تجنّب الكرات صفراء اللون، لكن ماذا لو تم صبغها باللون الأزرق؟ هل ستبقى قادرة على تمييزها ومعرفة أنها كُرة؟ أم أنها ستقف عاجزة؟
لا يُمكن حصر الأمثلة ولا حتى المجالات التي تدخل الرؤية الحاسوبية بها، لكن عندما تكون وسيلة الإدخال ليست مُجرّد لوحة مفاتيح، أو ماوس، أو لمس من المُستخدم، أو استخدام لصوته، فهي بنسبة كبيرة ستكون عن طريق الرؤية الحاسوبية.
وفي وقت قد تبدو فيه الشبكة التي تظهر على وجه المُستخدم في سناب شات مُجرّد تطبيق بسيط للرؤية الحاسوبية، تعمل خوارزميات مُعقّدة لتحقيق هذا الأمر، خصوصا أنها تتبّع حركة المُستخدم وتُحرّك التأثير معه كذلك.
أخيرا، إذا كانت الأمثلة السابقة بسيطة، فإن الأنظمة التي تقوم بتشغيل الأنوار أو فتح الأبواب عند رصد حركة، أو التي تقوم بالتقاط حركة يد المُستخدم على غرار جهاز "كينكت" (Kinect) من مايكرسوفت، أو حتى التي تسمح بفك قفل الجهاز عن طريق وجه المُستخدم مثلما هو الحال في أجهزة غالاكسي إس 8، ما هي سوى أنظمة للرؤية الحاسوبية على اختلاف درجة تعقيدها.