Najbardziej zaawansowana aplikacja do ochrony cybernetycznej dla Androida - Bitdefender Mobile Security & Antivirus

Pobierz
Bitdefender
  • 0

AktualnościBlog

Zestaw danych zbieranych przez Common Crawl w celu trenowania AI zawiera prywatne dane

piotrek

Piotr R

3 marca 2025

Badacze zajmujący się bezpieczeństwem odkryli, że niektóre zbiory danych używane przez firmy opracowujące duże modele językowe (LLM) zawierały klucze API, hasła i wiele innych form poświadczeń. Nie jest tajemnicą, że duże modele językowe przejmują świat online. Firmy szczycą się potężnymi rozwiązaniami AI, które wydają się być odpowiedzią na wszystko. Jednak aby agent lub rozwiązanie AI było skuteczne, musi zostać przeszkolone na jak największej ilości danych. Część tych danych jest pobierana bezpośrednio z Internetu, a firmy i organizacje specjalizują się w tego typu gromadzeniu danych.

AI

Niebezpieczne dane używane do trenowania modeli AI

Common Crawl to jedna z takich organizacji, która oferuje zestawy danych firmom, które muszą szkolić swoją sztuczną inteligencję, a wszystko jest zbierane z dostępnego Internetu. Oznacza to, że mogą być również zbierane pewne poufne informacje.

Badacze bezpieczeństwa z Truffle Security odkryli, że w sieci łapią wszelkiego rodzaju dane uwierzytelniające, klucze API i hasła. Największym problemem jest to, że niektórzy twórcy stron internetowych zapisują na stałe poufne informacje na stronie internetowej, a ostatecznie trafiają one do danych szkoleniowych LLM.

Naukowcy odkryli 11 908 aktywnych sekretów (kluczy API, haseł i innych danych uwierzytelniających, które umożliwiają skuteczne uwierzytelnienie w odpowiednich usługach) w 2,76 milionach witryn.

„Wyciekłe klucze w zbiorze danych Common Crawl nie powinny źle świadczyć o ich organizacji; to nie ich wina, że programiści zakodowali klucze na stałe w front-endzie HTML i JavaScript na stronach internetowych, nad którymi nie mają kontroli. A Common Crawl nie powinno mieć za zadanie redagowania sekretów; ich celem jest zapewnienie bezpłatnego, publicznego zbioru danych opartego na publicznym Internecie dla organizacji takich jak Truffle Security w celu przeprowadzenia tego typu badań” – wyjaśnili badacze.

Jak uchronić swoje witryny przed zbieraniem krytycznych danych?

W rzeczywistości firmy, które opracowują LLM, ostrzegały przed tym konkretnym problemem. Zalecenie jest proste: nie koduj na stałe żadnych poufnych informacji na stronach internetowych, zwłaszcza że osoby korzystające z AI mogą wykorzystać dostarczony kod do swojej pracy, nieświadomie rozprzestrzeniając problem jeszcze bardziej.

„Rozwój wielkich modeli językowych opartych na AI powoduje, że internauci i administratorzy witryn stoją przed dodatkowymi cyberniebezpieczeństwami. Dlatego warto przestrzegać podstawowych zasad cyberhigieny. Korzystajmy z oprogramowania antywirusowego i minimalizujmy nasz cyfrowy ślad, który może być potencjalnie wykorzystany do celów cyberprzestępczych” – mówi Dariusz Woźniak z firmy Marken Systemy Antywirusowe, polskiego dystrybutora oprogramowania Bitdefender.

Źródło: https://www.bitdefender.com/en-us/blog/hotforsecurity/400-tb-data-set-used-to-train-ai-has-api-keys-and-valid-credentials-researchers-find

Pobierz plik PDF

Informację można wykorzystać dowolnie z zastrzeżeniem podania firmy Marken Systemy Antywirusowe jako źródła.


Autor


piotrek

Piotr R

Account Manager, od ponad roku pracuję w branży IT i od ponad 5 lat jestem copywriterem. Do moich zadań należy nawiązywanie współpracy partnerskich, pisanie i redagowanie tekstów, kontakt z dziennikarzami, tworzenie notatek prasowych oraz zamieszczanie ich na stronach internetowych i w naszych mediach społecznościowych. Wcześniej byłem przez kilka lat związany z branżą OZE oraz z technologiami telemetrycznymi i elektronicznymi. Interesuję się językoznawstwem, literaturą, grą na gitarze oraz branżą gier.

Zobacz posty autora


Artykuły które mogą Ci się spodobać

Formularz kontaktowy

Wybierz odpowiednią opcję aby przejść do formularza kontaktowego. Odpowiemy najszybciej jak to możliwe!

    Dane kontaktowe





      Dane kontaktowe




      Do 10 osóbDo 50 osóbWięcej niż 50 osób

      Do 20 urządzeńDo 50 urządzeńDo 100 urządzeńWięcej niż 100 urządzeń

        Dane kontaktowe




        Partner stałyPoczątek współpracy