Zestaw danych zbieranych przez Common Crawl w celu trenowania AI zawiera prywatne dane

Adam D

3 marca 2025

Badacze zajmujący się bezpieczeństwem odkryli, że niektóre zbiory danych używane przez firmy opracowujące duże modele językowe (LLM) zawierały klucze API, hasła i wiele innych form poświadczeń. Nie jest tajemnicą, że duże modele językowe przejmują świat online. Firmy szczycą się potężnymi rozwiązaniami AI, które wydają się być odpowiedzią na wszystko. Jednak aby agent lub rozwiązanie AI było skuteczne, musi zostać przeszkolone na jak największej ilości danych. Część tych danych jest pobierana bezpośrednio z Internetu, a firmy i organizacje specjalizują się w tego typu gromadzeniu danych.

Niebezpieczne dane używane do trenowania modeli AI

Common Crawl to jedna z takich organizacji, która oferuje zestawy danych firmom, które muszą szkolić swoją sztuczną inteligencję, a wszystko jest zbierane z dostępnego Internetu. Oznacza to, że mogą być również zbierane pewne poufne informacje.

Badacze bezpieczeństwa z Truffle Security odkryli, że w sieci łapią wszelkiego rodzaju dane uwierzytelniające, klucze API i hasła. Największym problemem jest to, że niektórzy twórcy stron internetowych zapisują na stałe poufne informacje na stronie internetowej, a ostatecznie trafiają one do danych szkoleniowych LLM.

Naukowcy odkryli 11 908 aktywnych sekretów (kluczy API, haseł i innych danych uwierzytelniających, które umożliwiają skuteczne uwierzytelnienie w odpowiednich usługach) w 2,76 milionach witryn.

„Wyciekłe klucze w zbiorze danych Common Crawl nie powinny źle świadczyć o ich organizacji; to nie ich wina, że programiści zakodowali klucze na stałe w front-endzie HTML i JavaScript na stronach internetowych, nad którymi nie mają kontroli. A Common Crawl nie powinno mieć za zadanie redagowania sekretów; ich celem jest zapewnienie bezpłatnego, publicznego zbioru danych opartego na publicznym Internecie dla organizacji takich jak Truffle Security w celu przeprowadzenia tego typu badań” – wyjaśnili badacze.

Jak uchronić swoje witryny przed zbieraniem krytycznych danych?

W rzeczywistości firmy, które opracowują LLM, ostrzegały przed tym konkretnym problemem. Zalecenie jest proste: nie koduj na stałe żadnych poufnych informacji na stronach internetowych, zwłaszcza że osoby korzystające z AI mogą wykorzystać dostarczony kod do swojej pracy, nieświadomie rozprzestrzeniając problem jeszcze bardziej.

„Rozwój wielkich modeli językowych opartych na AI powoduje, że internauci i administratorzy witryn stoją przed dodatkowymi cyberniebezpieczeństwami. Dlatego warto przestrzegać podstawowych zasad cyberhigieny. Korzystajmy z oprogramowania antywirusowego i minimalizujmy nasz cyfrowy ślad, który może być potencjalnie wykorzystany do celów cyberprzestępczych” – mówi Dariusz Woźniak z firmy Marken Systemy Antywirusowe, polskiego dystrybutora oprogramowania Bitdefender.

Źródło: https://www.bitdefender.com/en-us/blog/hotforsecurity/400-tb-data-set-used-to-train-ai-has-api-keys-and-valid-credentials-researchers-find

Pobierz plik PDF

Informację można wykorzystać dowolnie z zastrzeżeniem podania firmy Marken Systemy Antywirusowe jako źródła.

Podobne artykuły:

Jeden z największych programów partnerskich na rynku cyber W Polsce

Ewolucja usług MSP: Dlaczego SOC i XDR stają się standardem w dobie NIS2 i jak na tym zyskać?

Poza horyzont zgodności: Jak duet PKF Polska i Bitdefender definiuje odporność biznesu w 2026 roku

Audyt i technologia: Jak PKF Polska i Bitdefender Polska budują cyfrową odporność biznesu

Autor

Adam D

Asystent ds. Serwisu i E-commerce, od ponad dwóch lat pracuję w branży IT. Do moich zadań należy wspomaganie działań na sklepie internetowym, wyszukiwanie nowinek technologicznych, wsparcie techniczne wewnątrz firmy lecz również pomoc klientom. Interesuje się grą na gitarze oraz branżą gier i działaniami policji w terenie.

Zobacz posty autora

Obecnie

Ochrona na smartfony

Pakiety GravityZone

Dodatkowe warstwy

ㅤ

À la carte

Dostawcy usług

Webinaria i spotkania biznesowe

Szkolenia i usługi

Dlaczego Bitdefender

Informacje

Dokumenty

Kontakt

Zestaw danych zbieranych przez Common Crawl w celu trenowania AI zawiera prywatne dane

Niebezpieczne dane używane do trenowania modeli AI

Jak uchronić swoje witryny przed zbieraniem krytycznych danych?

Podobne artykuły:

Jeden z największych programów partnerskich na rynku cyber W Polsce

Ewolucja usług MSP: Dlaczego SOC i XDR stają się standardem w dobie NIS2 i jak na tym zyskać?

Poza horyzont zgodności: Jak duet PKF Polska i Bitdefender definiuje odporność biznesu w 2026 roku

Audyt i technologia: Jak PKF Polska i Bitdefender Polska budują cyfrową odporność biznesu

Autor

Najnowsze wpisy

Jeden z największych programów partnerskich na rynku cyber W Polsce

Ewolucja usług MSP: Dlaczego SOC i XDR stają się standardem w dobie NIS2 i jak na tym zyskać?

Poza horyzont zgodności: Jak duet PKF Polska i Bitdefender definiuje odporność biznesu w 2026 roku

Audyt i technologia: Jak PKF Polska i Bitdefender Polska budują cyfrową odporność biznesu

Cyberbezpieczeństwo jako przewaga rynkowa: Jak standardy ochrony danych otwierają drzwi do największych kontraktów?

Ochrona danych w chmurze w enterprise – strategie, ryzyka i najlepsze praktyki

Social media

Artykuły które mogą Ci się spodobać

Jeden z największych programów partnerskich na rynku cyber W Polsce

Ewolucja usług MSP: Dlaczego SOC i XDR stają się standardem w dobie NIS2 i jak na tym zyskać?

Poza horyzont zgodności: Jak duet PKF Polska i Bitdefender definiuje odporność biznesu w 2026 roku

Zestaw danych zbieranych przez Common Crawl w celu trenowania AI zawiera prywatne dane

Niebezpieczne dane używane do trenowania modeli AI

Jak uchronić swoje witryny przed zbieraniem krytycznych danych?

Podobne artykuły:

Jeden z największych programów partnerskich na rynku cyber W Polsce

Ewolucja usług MSP: Dlaczego SOC i XDR stają się standardem w dobie NIS2 i jak na tym zyskać?

Poza horyzont zgodności: Jak duet PKF Polska i Bitdefender definiuje odporność biznesu w 2026 roku

Audyt i technologia: Jak PKF Polska i Bitdefender Polska budują cyfrową odporność biznesu

Autor

Najnowsze wpisy

Social media

Artykuły które mogą Ci się spodobać

Informacje o bezpieczeństwie produktu (GPSR)

Producent

Ostrzeżenia dotyczące bezpieczeństwa

Instrukcja bezpieczeństwa dla programów antywirusowych i zabezpieczających

1. Wybór odpowiedniego oprogramowania

2. Aktualizacje

3. Skanowanie systemu

4. Ochrona w czasie rzeczywistym

5. Bezpieczeństwo Internetu

6. Zarządzanie dostępem

7. Edukacja użytkowników

8. Tworzenie kopii zapasowych

9. Reakcja na zagrożenia

10. Zgłaszanie problemów