LAS VEGAS - الكلام الذي تولده الآلة ، والذي تم إنشاؤه باستخدام أجهزة الكمبيوتر الشخصية العادية والبرامج المجانية ، يمكن أظهر باحثان في مؤتمر القرصنة DEF CON 26 هنا يوم الجمعة مصادقة صوتية خادعة (أغسطس. 10).

الائتمان: Mr_Mrs_Marcha / Shutterstock
(رصيد الصورة: Mr_Mrs_Marcha / Shutterstock)

تطلب تزوير صوت شخص آخر باستخدام برامج تحويل النص إلى كلام (TTS) ذات مرة مئات الساعات من عينات الصوت من استهدفت صوت الفرد ، بالإضافة إلى كميات هائلة من القوة الحاسوبية ، باحثو Salesforce جون سيمور وعظيم عقيل قال.

لكن التطورات الحديثة في برامج تحويل النص إلى كلام مفتوحة المصدر ، وأساليب الباحثين الخاصة ، تجعل ذلك ممكنًا لأي شخص لديه التكنولوجيا ، بضع ساعات من عينات الصوت والكثير من وقت الفراغ لتزييف صوت شخص معين يتحدث إعدادًا مسبقًا بشكل مقنع عبارة المرور.

قال سيمور: "التعرف على السماعات ومصادقة السماعات هما شيئان مختلفان". "يمكن كسر مصادقة الكلام إذا كان المهاجم لديه بيانات كلام للهدف ويعرف مطالبة المصادقة."

أكثر: أفضل مكبرات الصوت الذكية

استلهم عقيل وسيمور من مشهد في فيلم القراصنة عام 1992 "أحذية رياضية" ، حيث تجاوزت شخصية روبرت ريدفورد قفل مصدق عليه صوتيًا عن طريق تشغيل تسجيل على شريط مستخدم مخول ينطق عبارة المرور: "صوتي هو صوتي جواز سفر. تحقق مني ".

عملاء بنك الاستثمار تشارلز شواب قال عقيل وسيمور إن استخدام عبارة مشابهة جدًا لتسجيل الدخول إلى حساباتهم عبر الهاتف: "صوتي هو كلمة المرور الخاصة بي".

تقوم Microsoft حاليًا باختبار بيتا ميزة الترخيص الصوتي. حتى في تفاحة و جوجل يستخدمون التعرف على الصوت ، على الرغم من أن سيمور أشار إلى أنه لا توجد شركتان تدعيان أنه يجب استخدام الميزة للمصادقة الجادة.

تُستخدم عبارات مرور منطوقة محددة للمصادقة الصوتية لأن الترجمة الآلية للكلام البشري لا تزال صعبة للغاية. عندما تتحدث إلى Amazon Alexa أو Apple Siri أو Google Assistant أو Microsoft Cortana ، تتم معالجة عبارة الاستدعاء فقط ، مثل "Hey، Siri" على الجهاز.

كل ما تقوله بعد ذلك يتم تسجيله وتحميله على الخوادم السحابية ، حيث يتم تشغيل كلامك وترجمته إلى نص وقراءته بواسطة الخدمات الخلفية. تقوم هذه الخدمات بإنشاء استجابة ثم إرسال خطاب تم إنشاؤه بواسطة الآلة ، أو تعليمات لتشغيل مقطوعة موسيقية معينة ، أو أي شيء آخر قد تطلبه.

من خلال قصر عبارة مرور التحقق على بضع كلمات محددة ، جهاز يعمل بالصوت لا يتعين على المصادقة إرسال مقطع الصوت إلى الخدمات السحابية أو إجراء معالجة ضخمة للبيانات المبنى. يجب عليه فقط مقارنة شكل الموجة للمقطع المسجل حديثًا بمقاطع الصوت التي سجلتها سابقًا.

لسوء الحظ ، هذا يخلق ميزة كبيرة للمهاجم. كل ما عليه فعله هو إنشاء مقطع صوتي لما يشبه إلى حد كبير قولك للكلمات بالضبط في عبارة المرور.

في فيلم "Sneakers" ، خدع المتسللون الشخص المستهدف لينطق العبارة بالضبط وسجلوه سراً. سعى عقيل وسيمور إلى اتباع نهج مختلف: تدريب آلة على أن تبدو مثل الشخص المستهدف بدرجة كافية بحيث يمكن أن تخدع عبارة المرور المنشأة آليًا مصدق الصوت.

فعل عقيل وسيمور ذلك بالضبط باستخدام خدمة عبر الإنترنت تسمى ليريبيرد، والذي يتيح للعملاء إنشاء "صور رمزية" لأنفسهم من خلال تسجيل حوالي 30 عبارة محددة مسبقًا. اشترك Seymour في نسخة تجريبية مجانية ، وكانت نتائج الخدمة جيدة بما يكفي لخداع الإصدار التجريبي للترخيص الصوتي من Microsoft.

هنا مقطع لسيمور يتحدث بعبارة المرور، "صوتي أقوى من كلمات المرور" ، متبوعًا بإصدار Lyrebird.

لا يزال هذا يبدو آليًا جدًا. للحصول على صوت مزيف جيدًا حقًا ، تحتاج إلى الكثير من العينات والكثير من وقت الحوسبة - أو هل أنت بحاجة إلى ذلك؟

لا يبدو أن الحصول على عينات صوتية كافية سيكون صعبًا ، إذا كان الهدف هو شخص تم توزيع تسجيلاته الصوتية بشكل جيد. في العام الماضي ، أنشأت Buzzfeed مقطعًا شهيرًا أظهر باراك أوباما "يتحدث" بكلمات تحدثها الممثل / المخرج جوردان بيل.

كان ذلك انتحالًا لشخصية إنسان وليس بواسطة آلة ، لكن سيمور وعقيل قالا إن صوت حديث أوباما كان تم تسجيله عدة مرات بحيث يمكنك نظريًا الحصول على مواد كافية لتدريب آلة على تعلمها وتكرارها صوت.

لكن هناك بعض المصيد. سيتعين عليك تضييق نطاق تسجيلات أوباما لتقتصر على أفضل وأوضح صوت. ستحتاج إلى تقسيم العينات الأطول إلى أجزاء من 10 ثوانٍ أو أقل ، لأن هذا هو ما يمكن لبرامج التعلم الآلي هضمه بسهولة.

ثم ستحتاج إلى نسخ جميع عينات خطاب أوباما حتى تتمكن الآلة من مقارنتها بالعينات الصوتية أثناء التدريب. ربما يتعين عليك نسخ عينات الكلام يدويًا ، الأمر الذي قد يستغرق أيامًا أو أسابيع ، إلا إذا كان لديك وصول إلى برامج متخصصة على خوادم سحابية. ثم تقوم بإدخال كل من النص والصوت إلى الجهاز لبدء التدريب ، والذي ، في حد ذاته ، قد يستغرق أسابيع.

من الواضح أن كل هذا يستغرق وقتًا طويلاً. لذلك وجد عقيل وسيمور بعض الحلول. قاموا بزيادة عدد عينات التدريب عن طريق إبطاء وتسريع العينات الصوتية الموجودة بحوالي 20 بالمائة في كل اتجاه وإعادة إدخالها. على الرغم من أن الآلة قد استعرضت هذه العينات بالفعل ، إلا أن اختلاف درجة الصوت ساعد في التدريب.

قرروا عدم نسخ أي صوت. بدلاً من ذلك ، سجل سيمور نفسه وهو يقرأ الكثير من النصوص المعدة.

وجد عقيل وسيمور أيضًا أنه بإمكانهما بدء التدريب على الآلة على مكتبات الكلام مفتوحة المصدر ، والتي تضم آلاف الساعات من أصوات الذكور والإناث. بمجرد أن تقوم الآلة بإيقاف الأساسيات ، يمكنهم تحويل الجهاز إلى صوت الشخص المستهدف. أطلقوا على هذا اسم "نقل التعلم".

أوصى الباحثون بحزم تحويل النص إلى كلام مفتوحة المصدر تاكوترون و ويف نت، على الرغم من أنهم فضلوا الأول. (هناك مؤثر جدا أمثلة على الكلام الناتج عن النص في صفحة Tacotron من Google ، ولكن بالطبع ، استخدمت الكثير من قوة الحوسبة.) للحصول على عينات من الكلام البشري لتدريب البرنامج ، استخدموا المصدر المفتوح عاصفة ثلجية و خطاب LJ مستودعات.

كانت النتائج النهائية مقنعة ، إن لم تكن مثالية. المثال الأول هنا هل Tacotron يولد الجملة "سأقدم لك عرضًا لا يمكنك رفضه" بعد أن تدرب على مكتبة الكلام في Blizzard ، دون نقل التعلم.

ال المثال الثاني يحتوي على نفس العبارة ، ولكن بعد إضافة صوت سيمور إلى التدريب في طريقة التعلم والنقل. لا يزال يبدو آليًا بعض الشيء ، وليس جيدًا مثل عينات Tacotron الخاصة بـ Google ، ولكن يجب أن يكون كافيًا لخداع المصادقة الصوتية.

قال سيمور إن الآثار المترتبة على ذلك تجاوزت المصادقة الصوتية. كما هو الحال في فيديو أوباما ، يمكن استخدام الأصوات المزيفة لتزييف الخطب السياسية. يمكن استخدامها أيضًا في محاولات التصيد وغيرها من أشكال الهندسة الاجتماعية ، خاصة تلك التي تتضمن مكالمات هاتفية أو بريد صوتي.

كما أظهر الزوجان ، لم تعد مثل هذه الهجمات مقصورة على خدمات الإنترنت الممولة جيدًا أو مهاجمي الدولة القومية. توقع سماع المزيد من أصوات الروبوتات المقنعة في مستقبلك.

عقيل وسيمور شرائح العرض ومقاطع الصوت متوفرة على موقع DEF CON.

  • 5 طرق لتأمين جهاز Alexa الخاص بك
  • أفضل 30 نصيحة وحيلة لـ Siri
  • 5 طرق لتأمين جهاز Google Home