Kredi: Dean Bertoncelj / Shutterstock
(Resim kredisi: Dean Bertoncelj / Shutterstock)

Kişisel alışveriş alışkanlıklarınız sizi yüzde 90 doğrulukla tanımlamak için kullanılabilir - ve izleyicilerin adınıza, adresinize ve hatta kredi kartı numaranıza ihtiyacı yok, yeni bir araştırmada.

Kadınların kimliğinin belirlenmesi erkeklerden daha kolaydır, zenginlerin belirlenmesi fakirlere göre daha kolaydır ve Ocak ayında yayınlanan çalışmaya göre, yeterli veri seti, gerçek anonimlik matematiksel olarak imkansız olabilir. Science dergisinin 30 sayısı. Bulgular, tüm toplama uygulamasının yeniden incelenmesini gerektirebilir "Büyük veri."

DAHA: Gerçekten Paranoyak İçin 13 Güvenlik ve Gizlilik İpuçları

Teknolojiden anlayan pek çok insan bile, izleyicinin bir isim veya başka bir türle donanmış olması koşuluyla, verilerin kırıntılarının bir bireyin hareketlerini izlemek için kullanılabileceğini bilir. kişisel olarak tanımlanabilir bilgiler (PII).

Massachusetts Institute of Technology'de yüksek lisans öğrencisi olan Yves-Alexandre deMontjoye, aşağıdaki meta verilere baktı: kredi kartı kayıtları - neyin alındığı ve kimin aldığı değil, bunun yerine her birinin saati, tarihi, yeri ve fiyatı işlem. Kart sahibi isimleri ve diğer tüm açık tanımlayıcılar silindi ve kart hesap numaraları rastgele atanan kimlik numaralarıyla değiştirildi.

Vakaların yüzde 90'ında, bu rastgele kimlik numaralarını yalnızca dört parçadan bireylere bağlamak mümkündü. de Montjoye, metadata - ve bazen yalnızca üç, çünkü günün saati her zaman gerekli olmadığından Kılavuz.

De Montjoye, "Gerçekten kaç parça bilgiye ihtiyaç duyulduğunu ölçmeye çalışıyorduk," dedi.

Kredi kartı verileri isimsiz bir ülkedeki tek bir banka tarafından sağlandı ve 1 Ocak'tan itibaren üç ayı kapsadı. 1, 2014-31 Mart 2014, 10.000 mağazada kullanılan 1,1 milyon karttan veri sağladı. DeMontjoye ilgili ülkenin adını vermedi, ancak Ekonomik İşbirliği ve Kalkınma Örgütü'nün 34 üyesinden biri olduğunu söyledi - zengin, muhtemelen Batılı bir ülke.

Bir numaraya bir yüz koymak

Tanımlamanın doğruluğunun nedeni aslında oldukça basittir. Örneğin, araştırmacının "7abc123a" gibi sadece alfasayısal bir kimlik olarak bileceği Jane Doe, bir kullanacak 1000 kişiden biri olabilir kredi kartı belirli bir günde belirli bir pizza dükkanında. Ancak hem o pizzacıda hem de belirli bir ayakkabıda kredi kartı kullanan çok daha az insan olurdu. o gün mağaza ve daha az kişi aynı gün üç farklı mağazadan bir şeyler satın alacak.

Bu noktadan sonra, Jane Doe'nun gittiği diğer yerleri, 1.1 milyon kartlık veri tabanını tarayarak tüm faaliyetlerini ortaya çıkarmak mümkün olacaktı. Her işlemin fiyatına dikkat edin - bir fiyat aralığı bile işe yarar - ve Jane'i gerçek bir isme bağlama olasılığı çarpıcı biçimde artar. Aslında, de Montjoye, sadece birkaç veri noktasıyla, tek bir kullanıcıyı kabaca yüzde 90 oranında tanımlayabileceğinizi buldu.

Diyelim ki Bayan Doe, hafta içi her gün Manhattan'daki Union Square yakınlarındaki bir Starbucks'tan kahve alarak başlıyor. Genellikle yakındaki yarım düzine markette ve paket servis restoranlarında öğle yemeği alır. Ancak Brooklyn, Park Slope'da bir metro MetroCard'ı satın aldı ve kredi kartını aynı mahalledeki bir kuru temizlemecide kullandı.

Jane Doe'nun nerede yaşadığını ve çalıştığını kabaca belirledik. Ama aynı zamanda lüks mağaza Barneys'ten kıyafet satın alıyor ve geceleri ve hafta sonları New York'ta dolaşmak için sık sık çevrimiçi taksi hizmeti Uber'i kullanıyor. Artık rahat bir gelir elde ettiğini biliyoruz.

Üç ay boyunca bu tür verileri toplayın, bir profil oluşturun ve ardından bunu herkese açık bilgilerle ilişkilendirin - LinkedIn'deki kişisel profiller veya Facebook veya insanların Foursquare'de "check-in yaptığı" - bu profile uyan kişiler hakkında ve muhtemelen rastgele kimliği Jane ile eşleştirebileceksiniz Doe.

Kimi aradığınızı zaten biliyorsanız, yöntem daha da kullanışlıdır. FBI olduğunuzu ve Jane Doe'yu izlemek istediğinizi, ancak yalnızca bir adınız, adresiniz ve bir yığın anonim kredi kartı veriniz olduğunu varsayalım. Montjoye'nin yöntemi, ikisini eşleştirmeyi kolaylaştırır.

De Montjoye gazetede, "Cinsiyet ve gelirin yeniden kimlik bulma olasılığı üzerindeki etkilerini de inceledik" diye yazdı. "Birinin geliri ne kadar yüksekse, kimliğini yeniden belirlemek o kadar kolay olur. … Kadınların yeniden tanımlanma ihtimali erkeklerinkinden 1.214 kat daha fazla. "

İsimleri tükürmek için verileri işlemek

Bu, hiç kimsenin, bireylerin yeniden tanımlanmasını ilk kez incelemesi değil. 2006'da America Online, 650.000 AOL kullanıcısının arama sorgularının bir veritabanını yayınladı ve araştırmacılar, bunları halka açık bilgileri kullanarak adlarla nasıl eşleştireceklerini çabucak buldular. Bunu yapabildiler çünkü anonimleştirme sadece isimleri benzersiz bir tanımlayıcıyla değiştirmekten ibaretti.

Aynı yıl, Netflix bir dizi film önerisi yayınladı ve daha iyi bir algoritma bulmak için halktan yardım istedi. Ancak Austin'deki Texas Üniversitesi'nden araştırmacılar Arvind Narayanan ve Vitaly Shmatikov, ekli isimleri yeniden oluşturmayı başardılar. veriyi İnternet Film Veritabanındaki (imdb.com) halka açık bilgilerle karşılaştırarak onlara - bu durumda, kullanıcıların önerileri.

De Montjoye'nin çalışması bu yöntemleri bir adım öteye taşıyor. Bir veritabanı içinde bile, kişisel olarak tanımlanabilir bilgileri tamamen kaldırmanın ve yine de benzersiz tanımlayıcılarla sonuçlanmanın mümkün olduğunu gösterir. Yalnızca birkaç veri noktasına ihtiyaç vardır ve oradan onu başka bir veri kümesiyle birleştirmek büyük bir başarı değildir.

Daha da önemlisi, tipik anonimleştirme yöntemlerinin muhtemelen işe yaramayacağını söyledi de Montjoye. Bunun anlamı, yeterince büyük bir veri kümesi verildiğinde, verilerin gerçek anonimleştirilmesinin matematiksel bir imkansızlık olabileceğidir.

Bunun anlamı, "Büyük Veri" nin asla gerçek anlamda anonim hale getirilemeyeceğidir. Yeterince veri verildiğinde - ancak Google, Facebook, Amazon, Apple veya Microsoft'un kullanabildiğinden çok daha azı, bir pazarlama-araştırma şirketinden bahsetmeye gerek yok. Acxiom- bir veri kümesinin gerçek bir adla eşleştirilebileceği neredeyse kesindir.

Bulgular, Massachusetts'teki Worcester Polytechnic Institute'ta siber güvenlik politikası profesörü Susan Landau'yu şaşırtmıyor.

Landau, "İsimsiz bir seyahat kartı kullanıyorum," dedi. "Turist olarak yaptığımız seyahat - eğer otelin bulunduğu bölgeyi bilirseniz, günle birlikte, kim olduğumuzu anlayabilirsiniz."

İsimsizleştirmeyi sınırlayabilir misiniz?

Ulusal Güvenlik Ajansı veya Facebook gibi kuruluşlar için, büyük veri kümeleri tarafından sağlanan anonimleştirme bir hata değil, bir özelliktir. NSA, güvenlik adına olabildiğince çok kişi hakkında veri görmek istiyor ve Facebook'un iş modelinin büyük bir kısmı, kullanıcıların ilgi alanlarına göre uyarlanmış reklamlar satıyor. Tıp ve nüfus çalışmaları için bunlar gibi büyük miktarda veri toplamanın da meşru nedenleri vardır.

Verilerin toplanacağı sürece Landau, gizliliğin anahtarının verilerin kullanımını ve ondan türetilen bilgileri kontrol etmek olduğunu söyledi. Tıbbi araştırma topluluğunda, kişisel verileri sızdıran bilim insanlarının veri setlerine erişimlerinin bir süreliğine reddedilebileceğini belirtti. Bu durumda, verileri kullanan kişiler kendi kendine polis.

Landau, "Verileri alamazsanız, araştırmacıyı bitirdiniz," dedi.

Electronic Frontier Foundation'da kıdemli avukat olan Lee Tien, bir dijital haklar ve gizlilik San Francisco'daki savunuculuk grubu, bu tür sorunların sistem tasarımcılarını verilerin nasıl olduğunu yeniden düşünmeye sevk etmesi gerektiğini söyledi. toplandı. Tien, olabildiğince fazla bilgi toplamak yerine, tam olarak neye ihtiyaç duyulduğunu düşünmenin ve en önemlisi, uzun süre ortalıkta tutmamanın daha iyi olabileceğini söyledi.

"Bunu yapmanın bir yolu." Tien, "Varlıkların kesinlikle gerekli olmadıkça onu almamaları gerektiğini söylemek" dedi.

DAHA: NSA'dan Her Şeyi Saklayabilir misin?

Tien, çalışmak istediği verilerle aynı istatistiksel ilişkilere sahip olan verileri sunmanın da mümkün olduğunu, ancak bu verileri alakalı olmayan alanlarda "yanlış" bilgilerle doldurmanın da mümkün olduğunu söyledi. ABD Nüfus Bürosu'nun araştırmacılara veri verirken bunu yaptığını belirtti.

De Montjoye, araştırmasının gerçekten kişisel veri kavramının yeniden düşünülmesi gerektiğini önerdiğini ekledi. Veri gizliliğini yöneten Fransız ajansı olan Commission nationale de l'informatique et des libertés, veri setlerinin "kanıtlanabilir şekilde anonim" olmasını isteyerek özel verilere yaklaşır.

De Montjoye, "Bu ölçeklenmiyor ve muhtemelen başarılamaz" dedi.

De Montjoye, bulgularının veri toplama uygulamasının kötü olduğunu göstermediğini söyledi, ancak daha ziyade, ne tür verilerin gerçekte ne tür veriler olduğuna dair daha iyi bir fikir bulmak kişiye özel.

Şimdi veri toplama, "isimler veya PII olarak tanımlanan bu belirsiz kişisel veri kavramına dayanıyor" dedi. "Bunun yeterli olmadığını gösteriyoruz."

  • Kilitlemek için 10 Facebook Gizlilik ve Güvenlik Ayarları
  • Çevrimiçi Nasıl Anonim Olunur?
  • Çevrimiçi Gizliliğinizi Kilitlemenin 7 Yolu

Bizi takip et @tomsguide, üzerinde Facebook ve üzerinde Google+.