Gigantyczny wyciek danych dotyczący ponad miliarda ludzi (PDL / OXY)
Odkrycia dokonali Bob Diachenko i Vinny Troia 16 października 2019 roku. Tego dnia dwóch ekspertów cyberbezpieczeństwa odkryło niezabezpieczony serwer Elasticsearch zawierający monumentalne 4 terabajty danych na temat 4 miliardów użytkowników. Całkowita liczba unikalnych użytkowników osiągnęła ponad 1.2 miliarda ludzi. Wyciekły dane osobowe, adresy e-mail, numery telefonów, dane profilowe LinkedIn i Facebooka.
To drugi co do wielkości wyciek danych w historii. Przewyższa go liczbowo jedynie wyciek danych Yahoo. Co jest niespotykane, w tym przypadku, to nie tylko ilość użytkowników na temat, których zbierane były informacje, ale i bogactwo tych danych.
Wszystko wygląda na to, że wyciek danych dotyczył dwóch firm wzbogacających dane.
Czym jest wzbogacanie danych?
Wzbogacanie danych (z ang. data enrichment) to obecnie wielki biznes. W dużym uproszczeniu polega na łączeniu danych z różnych źródeł. Generalną zasadą jest ta, że im więcej danych na dany temat tym lepsze decyzje można podjąć. Ta zasada jest jeszcze bardziej prawdziwa w czasach data science, w których ilość danych, które dostarczamy algorytmom, jest mocno skorelowane ze skutecznością modeli. Innymi słowy, dane są dla korporacji wartościowe, bo są skorelowane z lepszymi decyzjami, co przekłada się, wprost, na pieniądze.
Firmy wzbogacania danych zbierają informacje na temat użytkowników/fizycznych osób i odsprzedają je dalej. Zwykle polega to na tym, że oferują daną, punktową, informację taką jak adres e-mail, czy numer telefonu, po niskiej cenie.
Jak doszło do odkrycia?
Eksperci cyberbezpieczeństwa odkryli niezabezpieczony serwer Open Elasticsearch dostępny z poziomu przeglądarki pod adresem http://35.199.58.125:9200. Serwer nie był zabezpieczony hasłem ani żadnym innym sposobem uwierzytelniania — znajomość adresu wystarczyła, by ściągnąć wszystkie dane. Serwer jest obecnie niedostępny.
Jakie firmy odpowiedzialne?
Mimo że niejawnym jest, kto jest właścicielem serwera, ekspertom udało się ustalić skąd pochodzą dane, które się na nim znajdowały.
People Data Labs (PDL) to pierwsza z tych firm. PDL to data broker i firma wzbogacająca dane, która daje możliwość wykonania 1000 zapytań miesięcznie, do swojej bazy danych, za darmo. Wykonane testowe zapytania pokrywały się jeden do jednego, z danymi znajdującymi się w wycieku.
Drugą z firm, której dane wyciekły jest OxyData.Io (OXY), która chwali się posiadaniem 4 terabajtów danych na temat użytkowników.
Informacje z PDL zawierały dane na temat 1.2 miliarda unikalnych ludzi i 650 milionów adresów e-mail. Baza z OXY zawierała około 380 milionów ludzi, głównie dane z LinkedIn.
Obie firmy utrzymują, że nie padły ofiarą ataku hakerskiego, a prawdopodobnym źródłem wycieku są klienci, którzy zakupili dane.