Badacze zajmujący się bezpieczeństwem odkryli, że niektóre zbiory danych używane przez firmy opracowujące duże modele językowe (LLM) zawierały klucze API, hasła i wiele innych form poświadczeń. Nie jest tajemnicą, że duże modele językowe przejmują świat online. Firmy szczycą się potężnymi rozwiązaniami AI, które wydają się być odpowiedzią na wszystko. Jednak aby agent lub rozwiązanie AI było skuteczne, musi zostać przeszkolone na jak największej ilości danych. Część tych danych jest pobierana bezpośrednio z Internetu, a firmy i organizacje specjalizują się w tego typu gromadzeniu danych.
Niebezpieczne dane używane do trenowania modeli AI
Common Crawl to jedna z takich organizacji, która oferuje zestawy danych firmom, które muszą szkolić swoją sztuczną inteligencję, a wszystko jest zbierane z dostępnego Internetu. Oznacza to, że mogą być również zbierane pewne poufne informacje.
Badacze bezpieczeństwa z Truffle Security odkryli, że w sieci łapią wszelkiego rodzaju dane uwierzytelniające, klucze API i hasła. Największym problemem jest to, że niektórzy twórcy stron internetowych zapisują na stałe poufne informacje na stronie internetowej, a ostatecznie trafiają one do danych szkoleniowych LLM.
Naukowcy odkryli 11 908 aktywnych sekretów (kluczy API, hasełi innych danych uwierzytelniających, które umożliwiają skuteczne uwierzytelnienie w odpowiednich usługach) w 2,76 milionach witryn.
„Wyciekłe klucze w zbiorze danych Common Crawl nie powinny źle świadczyć o ich organizacji; to nie ich wina, że programiści zakodowali klucze na stałe w front-endzie HTMLi JavaScript na stronach internetowych, nad którymi nie mają kontroli. A Common Crawl nie powinno mieć za zadanie redagowania sekretów; ich celem jest zapewnienie bezpłatnego, publicznego zbioru danych opartego na publicznym Internecie dla organizacji takich jak Truffle Security w celu przeprowadzenia tego typu badań” – wyjaśnili badacze.
Jak uchronić swoje witryny przed zbieraniem krytycznych danych?
W rzeczywistości firmy, które opracowują LLM, ostrzegały przed tym konkretnym problemem. Zalecenie jest proste: nie koduj na stałe żadnych poufnych informacji na stronach internetowych, zwłaszcza że osoby korzystające z AI mogą wykorzystać dostarczony kod do swojej pracy, nieświadomie rozprzestrzeniając problem jeszcze bardziej.
„Rozwój wielkich modeli językowych opartych na AI powoduje, że internauci i administratorzy witryn stoją przed dodatkowymi cyberniebezpieczeństwami. Dlatego warto przestrzegać podstawowych zasad cyberhigieny. Korzystajmy z oprogramowania antywirusowegoi minimalizujmy nasz cyfrowy ślad, który może być potencjalnie wykorzystany do celów cyberprzestępczych” – mówi Dariusz Woźniak z firmy Marken Systemy Antywirusowe, polskiego dystrybutora oprogramowania Bitdefender.