LAS VEGAS - Normal kişisel bilgisayarlar ve ücretsiz yazılım kullanılarak oluşturulan makine tarafından oluşturulan konuşma, aptal ses kimlik doğrulaması, iki araştırmacı Cuma günü DEF CON 26 hack konferansında gösterdi (Ağu. 10).

Kredi: Mr_Mrs_Marcha / Shutterstock
(Resim kredisi: Mr_Mrs_Marcha / Shutterstock)

Metinden konuşmaya (TTS) programları kullanarak bir başkasının sesini taklit etmek, bir zamanlar yüzlerce saatlik ses örneği gerektiriyordu. Salesforce araştırmacıları John Seymour ve Azeem Aqil'in hedeflediği kişinin sesini ve muazzam miktarda bilgi işlem gücü dedim.

Ancak açık kaynaklı metinden konuşmaya programlarındaki son gelişmeler ve araştırmacıların kendi yöntemleri, bunu ücretsiz teknoloji, birkaç saatlik ses örnekleri ve bir ön ayarı konuşan belirli bir bireyin sesini ikna edici bir şekilde taklit etmek için çok fazla boş zaman parola.

Seymour, "Konuşmacı tanıma ve konuşmacı kimlik doğrulaması iki farklı şeydir" dedi. "Saldırgan hedefin konuşma verilerine sahipse ve kimlik doğrulama istemini biliyorsa, konuşma kimlik doğrulaması bozulabilir."

DAHA: En İyi Akıllı Hoparlörler

Aqil ve Seymour, 1992 hacker filmi "Sneakers" da Robert Redford'un karakterinin bir Yetkili bir kullanıcının şu parolayı söyleyen bir kaset kaydını oynatarak ses doğrulamalı kilit: "Sesim benim pasaport. Beni doğrula. "

Yatırım bankasının müşterileri Charles Schwab Aqil ve Seymour çok benzer bir cümle kullanarak hesaplarına telefonla giriş yaptıklarını söyledi: "Sesim şifremdir."

Microsoft şu anda beta testi yapıyor bir ses yetkilendirme özelliği. Hatta elma ve Google Seymour, hiçbir şirketin bu özelliğin ciddi kimlik doğrulama için kullanılması gerektiğini iddia etmediğini belirtmesine rağmen, ses tanımayı kullanıyor.

İnsan konuşmasının makine çevirisi hala inanılmaz derecede zor olduğundan, ses kimlik doğrulaması için belirli sözlü parolalar kullanılır. Amazon Alexa, Apple Siri, Google Assistant veya Microsoft Cortana ile konuştuğunuzda, gerçekte cihazda yalnızca "Hey, Siri" gibi çağrı ifadesi işlenir.

Bundan sonra söylediğiniz her şey kaydedilir ve konuşmanızın oynatıldığı, metne çevrildiği ve arka uç hizmetleri tarafından okunduğu bulut sunucularına yüklenir. Bu hizmetler bir yanıt oluşturur ve ardından makine tarafından oluşturulan bir konuşmayı veya belirli bir müzik parçasını çalma talimatını veya başka ne talep etmiş olabileceğiniz bir şeyi geri gönderir.

Doğrulama parolasını birkaç belirli kelimeyle sınırlandırarak, ses tabanlı performans gösteren bir makine kimlik doğrulamasının ses klibini bulut hizmetlerine göndermesi veya çok büyük veri sıkıştırma gerçekleştirmesi gerekmez tesislerinde. Sadece yeni kaydedilen klibin dalga biçimini daha önce kaydettiğiniz ses klipleriyle karşılaştırması gerekir.

Ne yazık ki, bu bir saldırgan için büyük bir avantaj yaratır. Yapması gereken tek şey, paroladaki kelimeleri tam olarak söylemenize çok benzeyen bir ses klibi oluşturmaktır.

"Spor Ayakkabılar" da, bilgisayar korsanları hedeflenen kişiyi tam olarak söylemesi için kandırdı ve onu gizlice kaydetti. Aqil ve Seymour farklı bir yaklaşım aradılar: Bir makineyi hedeflenen kişi gibi ses çıkaracak şekilde eğitmek, böylece makine tarafından üretilen parolası bir ses doğrulayıcısını kandırabilir.

Aqil ve Seymour tam da bunu, Lyrebird, müşterilerin yaklaşık 30 önceden ayarlanmış kelime öbeği kaydederek kendilerine ait "ses avatarları" oluşturmalarına olanak tanır. Seymour ücretsiz bir deneme için kaydoldu ve hizmetin sonuçları Microsoft'un ses yetkilendirme betasını kandıracak kadar iyiydi.

İşte Seymour'un parolayı söyleyen bir klibi, "Sesim şifrelerden daha güçlü", ardından Lyrebird sürümü geliyor.

Yine de kulağa oldukça robotik geliyor. Gerçekten iyi sahte sesler elde etmek için çok sayıda örneğe ve çok fazla hesaplama süresine ihtiyacınız var - yoksa siz mi?

Yeterli ses örneği almak, hedef ses kayıtları iyi dağıtılmış biriyse, kulağa zor geliyor gibi görünmüyor. Geçen yıl, Buzzfeed, Barack Obama'nın aslında aktör / yönetmen Jordan Peele tarafından konuşulan "konuşan" sözlerini gösteren ünlü bir klip hazırladı.

Bu bir makine yerine bir insan tarafından taklit edildi, ancak Seymour ve Aqil, Obama'nın konuşma sesinin o kadar çok kez kaydedildi ki, bir makineyi öğrenmek ve kopyalamak için teorik olarak yeterli materyal elde edebilirsiniz. ses.

Ancak bazı noktalar var. Obama kayıtlarını en iyi ve en net sese sahip olanlarla sınırlamanız gerekir. Uzun örnekleri 10 saniye veya daha kısa parçalara ayırmanız gerekir, çünkü bu, makine öğrenimi yazılımının en kolay şekilde sindirebileceği şeydir.

Daha sonra, makinenin eğitim sırasında bunları ses örnekleriyle karşılaştırabilmesi için tüm Obama konuşma örneklerini yazmanız gerekir. Bulut tabanlı sunucularda özel bir yazılıma erişiminiz yoksa muhtemelen konuşma örneklerini elle yazmanız gerekecek, bu da günler veya haftalar sürebilir. Ardından, eğitime başlamak için makineye hem metni hem de sesi beslersiniz, bu kendi başına haftalar sürebilir.

Bunların hepsi açıkça çok uzun sürüyor. Böylece Aqil ve Seymour bazı geçici çözümler buldu. Mevcut ses örneklerini her yönde yaklaşık yüzde 20 oranında yavaşlatıp hızlandırarak ve yeniden girerek eğitim örneklerinin sayısını artırdılar. Makine bu örnekleri daha önce incelemiş olsa da, perde değişimi eğitimde yardımcı oldu.

Herhangi bir sesi yazıya dökmemeye karar verdiler. Bunun yerine Seymour, çok sayıda hazırlanmış metin okuyarak kendini kaydetti.

Aqil ve Seymour, binlerce saat kadın ve erkek sesi içeren açık kaynak konuşma kitaplıklarında makine eğitimine başlayabileceklerini de keşfettiler. Makine temel bilgileri edindikten sonra, makineyi hedeflenen kişinin sesine çevirebilirler. Buna "transfer öğrenimi" adını verdiler.

Araştırmacılar açık kaynaklı metin okuma paketlerini önerdiler Tacotron ve WaveNetilkini tercih etmelerine rağmen. (Çok etkileyici metin oluşturulmuş konuşma örnekleri Google'ın Tacotron sayfasında, ancak tabii ki bu çok fazla bilgi işlem gücü kullanıyordu.) Yazılımı eğitmek için insan konuşma örnekleri için, açık kaynak kodlu Blizzard ve LJ Konuşma depolar.

Nihai sonuçlar, mükemmel olmasa da ikna ediciydi. İlk örnek buraya Tacotron, Blizzard konuşma kitaplığında eğitim aldıktan sonra, aktarım öğrenmeden "Size reddedemeyeceğiniz bir teklif yapacağım" cümlesini oluşturuyor.

ikinci örnek aynı ifadeye sahiptir, ancak transfer-öğrenme yönteminde eğitime Seymour'un sesi eklendikten sonra. Kulağa biraz robotik geliyor ve Google'ın kendi Tacotron örnekleri kadar iyi değil, ancak ses kimlik doğrulamasını kandırmak için yeterli olmalı.

Seymour, bunun sonuçlarının sesli kimlik doğrulamanın ötesine geçtiğini söyledi. Obama videosunda olduğu gibi, sahte sesler siyasi konuşmaları taklit etmek için kullanılabilir. Kimlik avı girişimlerinde ve diğer sosyal mühendislik biçimlerinde, özellikle telefon görüşmeleri veya sesli mesaj içerenlerde de kullanılabilirler.

İkilinin de gösterdiği gibi, bu tür saldırılar artık iyi finanse edilen internet hizmetleri veya ulus devlet saldırganlarıyla sınırlı değil. Gelecekte çok daha fazla ikna edici robot sesi duymayı bekleyin.

Aqil ve Seymour's sunum slaytları ve ses klipleri DEF CON web sitesinde mevcuttur.

  • Alexa Cihazınızı Korumanın 5 Yolu
  • 30 En İyi Siri İpuçları ve Püf Noktaları
  • Google Home Cihazınızı Korumanın 5 Yolu