شعار قسم ميدان

هل لصوتك بصمة؟.. نظرة على تطبيق "شازام"

ميدان شازام shazam

تماما مثل كلمة "غوغل" التي تحوّلت إلى فعل رسمي باللغة الإنجليزية للدلالة على البحث، تحوّلت كلمة "شازام" (Shazam) إلى فعل آخر للدلالة على البحث عن اسم الأغنية باستخدام الأجهزة الذكية وتطبيق "شازام" الذي حقّق طفرة تقنية جديرة بالوقوف عندها.

 

وللتأكيد على أهمّية هذا التطبيق، رُبط "شازام" بشركتي "سبوتيفاي" و"سناب" (Snap Inc) اللتين عبّرتا عن رغبتهما في الاستحواذ عليه، لتأتي شركة آبل من بعيد وتحصل عليه في صفقة قيل إن قيمتها وصلت إلى 400 مليون دولار أميركي(1)، في وقت وصلت فيه القيمة المتوقّعة للتطبيق إلى مليار دولار أميركي تقريبا(2).

 

 

التعرّف على الأغاني

بعيدا عن الصوت، هناك تقنيات داخل الحواسب والأجهزة الذكية تسمح للآلة بالتعرّف على محتويات الصورة، وذلك عبر تحليل محتوياتها ومُقارنتها مع قاعدة بيانات تحتوي على ملايين العناصر، فعند تمرير صورة تحتوي على موزة على سبيل المثال، تقوم الخوارزميات بتحليل اللون أولا، والشكل ثانيا، لتقوم فيما بعد بالبحث عن العناصر التي تتألف بشكل أو بآخر من نفس المكوّنات لعرض الاقتراحات. ما سبق يعني أن الآلة اعتمدت على أكثر من عنصر مثل اللون، والشكل، والحجم، والبيئة المُحيطة من أجل تحديد محتويات الصورة. لكن هل تتوفّر كل تلك العوامل داخل الصوت لمعرفة اسم الأغنية أو المقطع الصوتي؟

 

بكل تأكيد هناك تقنيات سابقة لعصرها طُوّرت في الشركة المسؤولة عن تطبيق "شازام" الذي بدأت جهود تطويره منذ عام 1999 تقريبا، وإلا لما تقدّمت آبل للاستحواذ عليه بمبلغ يصل إلى 400 مليون دولار أميركي، ولما اعتمدت عليه في "سيري" (Siri) لتقديم خدمة التعرّف على الأغاني. تتوفّر في الصوت خصائص وميزات مثل تلك الموجودة في الصور، فالصوت عبارة عن موجات تحدث في زمن مُعيّن وبتواتر مُعيّن، وبشدة مُتغيّرة كذلك، وهذا يُفسّر سماع أذن الإنسان للأمواج الصوتية بتردّد بين 20 هيرتز و20 ألف هيرتز، وأي شيء فوق تلك التردّدات أو دونها يُمكن لبعض الكائنات سماعه فقط. وبناء على ذلك، يُمكن فهم النموذج الذي يعمل تطبيق "شازام" به من أجل تحديد الأغنية.

 

تحتوي قاعدة بيانات التطبيق على أكثر من 10 ملايين أغنية تم تحويلها إلى مجموعة من البصمات الصوتية، أي تجزئة الأغنية أو الصوت إلى مقاطع بمدّة عشر ثوانٍ تقريبا، ومن ثم تحويلها إلى بصمة صوتية تُخزّن داخل قاعدة البيانات. تلك البصمة لا يجب أن تكون بسيطة، أي إنها لا يُمكن أن تحمل بعض مواصفات الصوت فقط مثل الزمن والتواتر، فالكثير من الأمواج الصوتية قد تتشابه في هذا الأمر، وبناء على ذلك، قام "آفري وانغ" (Avery Wang)، أحد مؤسّسي "شازام"، بابتكار تقنية يعتمد التطبيق عليها جعلته من أفضل الخدمات التي توفّر التعرّف على محتويات المقاطع الصوتية بدقّة وبسرعة عالية جدا.

 

بصمات صوتية ثلاثية الأبعاد

قرّر "وانغ" الاعتماد على ما يُعرف بالتمثيل الطيفي، "سبيكتروغرام" (Spectrogram)، وهو عبارة عن مُخطّط ثلاثي الأبعاد لأي موجة صوتية. يتألّف المُخطّط بشكل عام من محور للزمن تمتد على طوله الموجة الصوتية، وهذا شيء افتراضي من خواص أي صوت. ويوجد كذلك محور لتواتر تلك الموجة، وهذا أيضا من خواص الموجة الصوتية. بعدها يتم اختيار نقطة ما على ذلك التمثيل البياني لمعرفة شدّة الموجة عند تلك النقطة المُحدّدة، ومن هنا يتشكّل تمثيل ثلاثي الأبعاد للموجة الصوتية.

 

ومن جديد، فإن الأمواج الصوتية قد تحمل عند نقطة ما نفس الشدة، عند نفس الزمن ونفس التواتر، الأمر الذي يجعل فكر "وانغ" لا يحل المشكلة بشكل كامل، أو قد يحّلها، لكن هذا سيزيد قائمة الاحتمالات. وبناء على ذلك تم الاعتماد على أكثر من نقطة على ذلك المحور عوضا عن واحدة، وهذا يعني تقريبا أن البصمة الصوتية لأي أغنية هي عبارة عن نقطتين على ذلك المحور، وما بينهما. ولأجل ذلك يقوم "شازام" بالاستماع إلى عشر ثوانٍ تقريبا قبل تحديد الأغنية، فبهذا الشكل يقوم التطبيق بإنشاء بصمة للمقطع المُلتقط ومن ثم مُطابقتها مع البصمات الموجودة داخل قاعدة البيانات، وبالتالي لكل أغنية أو مقطع صوتي هناك أكثر من بصمة صوتية لتسريع عملية البحث قدر الإمكان وجعلها أكثر دقّة بكل تأكيد(3).

 

 

منذ أن اعتمد "شازام" على ذلك المفهوم وعُلماء الحاسب يعتبرون أن الطريقة غير عملية كثيرا، وهو شيء منطقي وموجود على أرض الواقع، لأن مُهندسي الشركة وبعد دراسة الخواص الفيزيائية للموجة الصوتية وجدوا أنها لو كانت ضعيفة، أي إن ميزاتها مثل التواتر والشدّة منخفضة، سترتفع احتمالية تأثّرها بالضجيج، ولذلك تقوم خوارزميات التطبيق بشكل أساسي بإنشاء بصمة صوتية في نقاط تكون فيها تلك الخصائص بقيم مُرتفعة، الأمر الذي يعني أن الموجة الصوتية في أفضل حالاتها وليست ضعيفة، ففي بداية، أو نهاية، بعض المقاطع الصوتية تكون هناك آلات موسيقية أقل، وقد يكون مستوى الصوت تصاعديا أو تنازليا، الأمر الذي قد يؤخّر، ويُقلّل، جودة تلك البصمة.

 

وبناء على ذلك، نجحت العقول خلف التطبيق في إثبات جدارتها على مدار السنوات الماضية، فالتطبيق انتقل من كونه وسيلة للتعرّف على الأغاني والموسيقى إلى وسيلة للتعرّف على الإعلانات، والبرامج التلفزيونية، بالإضافة إلى المسلسلات والأفلام.

 

بدائل

على الرغم من التفكير الرياضي والبرمجي في خوارزميات التطبيق فإنها تعتمد كذلك على بعض المنطق أثناء البحث، فالبصمة الصوتية يتم تمريرها أولا ومقارنتها مع قاعدة بيانات تحتوي على الأغاني الصادرة حديثا، وتلك التي تمتلك شعبية مُتزايدة في الآونة الأخيرة. وعند الفشل في العثور عليها في تلك القاعدة يتم تمريرها إلى قاعدة بيانات التطبيق الشاملة التي تحتوي على ملايين الأغاني والمقاطع دون مُبالغة.

 

 

لكن "شازام" يُعاني من بعض القصور، ومن ذلك عدم إمكانية التعرّف على الأغاني التي يُدندنها المستخدم ذاته، فالبصمات الصوتية الموجودة بداخله هي بصمات لأغانٍ حقيقية موجودة على أرض الواقع. لكن ماذا لو كانت هناك جملة لحنية عالقة في ذهن المستخدم ولم يتمكّن من تذكّر اسمها؟ هل هناك حل بديل؟

 

"ساوند هوند" (SoundHound)، أو "ميدومي" (Midomi) سابقا، يبرز كأحد الأسماء المنافسة لتطبيق "شازام"، وهذا لأن القائمين عليه من المُتخصّصين في عالم الصوتيات أولا، ولأنه قادر على التعرّف على ما يُدندنه المستخدم ثانيا، الأمر الذي ساعده على كسب أكثر من 300 مليون مستخدم حول العالم، في وقت يمتلك فيه "شازام" 120 مليون مستخدم نشط شهريا، وتم استخدامه للتعرّف على أكثر من 15 مليار أغنية مع وجود أكثر من مليار تحميل للتطبيق على الهواتف الذكية(4)(5).

 

وبعيدا عن الدندنة، فإن تعرّف "شازام" على الأغنية يتم عندما يضغط المستخدم على زر التعرّف، أو عندما يطلب المستخدم ذلك من مساعده الرقمي. لكنّ مُهندسي غوغل كان عندهم رأي آخر في هواتف "بكسل 2" الصادرة في عام 2017، وذلك عبر ميزة تحمل اسم "قيد التشغيل الآن" (Now Playing) التي تقوم بالتعرّف على الأغنية أيضا. لكن ميزة غوغل الجديدة تعمل دون أن يطلب المستخدم منها ذلك، ودون الحاجة إلى الاتصال بالإنترنت أيضا. الجهاز، وعبر وحدة معالجة خاصّة، يقوم بإجراء مسح صوتي دوري للوسط المحيط محاولا استكشاف أي أغنية يجري تشغيلها، ليقوم فيما بعد بتحويلها إلى بصمة صوتية والبحث عنها في قاعدة بيانات موجودة على هاتف المستخدم نفسه، وتلك قاعدة لا يزيد حجمها عن 500 ميغابايت حسبما أكّد مسؤولو الشركة(6)، فيها أحدث الأغاني والأكثر شهرة على مستوى العالم، وهي قاعدة تتغيّر باستمرار مع مرور الوقت عندما يُتاح للمستخدم الاتصال بشبكة الإنترنت.

  

 

وعلى الرغم من وجود ميزات تُكمل نواقص "شازام" في تطبيقات أُخرى فإن التطبيق الآن يُركّز على مجال الواقع الافتراضي، وهذا قد يكون من الأسباب التي دفعت القائمين على أبل إلى التفكير بالاستحواذ عليه. وبناء على ذلك، فإن مساعد آبل الرقمي، "سيري"، قد يوفّر قريبا إمكانية التعرّف على محتويات الصورة التي يلتقطها المستخدم لعرض اقتراحات بناء على ذلك، تماما مثل عدسات غوغل (Google Lense)، و"بيكسي" (Bixby)، مُساعد شركة سامسونج الرقمي.

 

إدراك الأجهزة الذكية للوسط المُحيط بالمستخدم أصبح أمرا أساسيا وضرورة لا مفرّ منها، فالذكاء الاصطناعي والتعلّم الذاتي للآلة أصبحا جزءا أساسيا من أي جهاز في الوقت الراهن، وهذا لإلغاء الحاجز الصغير الذي يفصل بين التقنية وبين الواقع. من أجل ذلك، سوف تستثمر الشركات التقنية مبالغ ضخمة، لأن طرح سؤال على المساعد الرقمي والحصول على إجابة عنه سيُصبح صيحة قديمة بعد فترة، ويحتاج المُساعد إلى أن يكون جاهزا للإجابة عن السؤال حتى قبل طرحه، مع الإلمام بما يجري حول المستخدم وكأنه كائن حي وليس مُجرّد دارات كهربائية وخوارزميات برمجية.

المصدر : الجزيرة