Najbardziej zaawansowana aplikacja do ochrony cybernetycznej dla Androida - Bitdefender Mobile Security & Antivirus

Pobierz
Wróć do Aktualności

03 marca 2025

Badacze zajmujący się bezpieczeństwem odkryli, że niektóre zbiory danych używane przez firmy opracowujące duże modele językowe (LLM) zawierały klucze API, hasła i wiele innych form poświadczeń. Nie jest tajemnicą, że duże modele językowe przejmują świat online. Firmy szczycą się potężnymi rozwiązaniami AI, które wydają się być odpowiedzią na wszystko. Jednak aby agent lub rozwiązanie AI było skuteczne, musi zostać przeszkolone na jak największej ilości danych. Część tych danych jest pobierana bezpośrednio z Internetu, a firmy i organizacje specjalizują się w tego typu gromadzeniu danych.

AI

Niebezpieczne dane używane do trenowania modeli AI

Common Crawl to jedna z takich organizacji, która oferuje zestawy danych firmom, które muszą szkolić swoją sztuczną inteligencję, a wszystko jest zbierane z dostępnego Internetu. Oznacza to, że mogą być również zbierane pewne poufne informacje.

Badacze bezpieczeństwa z Truffle Security odkryli, że w sieci łapią wszelkiego rodzaju dane uwierzytelniające, klucze API i hasła. Największym problemem jest to, że niektórzy twórcy stron internetowych zapisują na stałe poufne informacje na stronie internetowej, a ostatecznie trafiają one do danych szkoleniowych LLM.

Naukowcy odkryli 11 908 aktywnych sekretów (kluczy API, haseł i innych danych uwierzytelniających, które umożliwiają skuteczne uwierzytelnienie w odpowiednich usługach) w 2,76 milionach witryn.

„Wyciekłe klucze w zbiorze danych Common Crawl nie powinny źle świadczyć o ich organizacji; to nie ich wina, że programiści zakodowali klucze na stałe w front-endzie HTML i JavaScript na stronach internetowych, nad którymi nie mają kontroli. A Common Crawl nie powinno mieć za zadanie redagowania sekretów; ich celem jest zapewnienie bezpłatnego, publicznego zbioru danych opartego na publicznym Internecie dla organizacji takich jak Truffle Security w celu przeprowadzenia tego typu badań” – wyjaśnili badacze.

Jak uchronić swoje witryny przed zbieraniem krytycznych danych?

W rzeczywistości firmy, które opracowują LLM, ostrzegały przed tym konkretnym problemem. Zalecenie jest proste: nie koduj na stałe żadnych poufnych informacji na stronach internetowych, zwłaszcza że osoby korzystające z AI mogą wykorzystać dostarczony kod do swojej pracy, nieświadomie rozprzestrzeniając problem jeszcze bardziej.

„Rozwój wielkich modeli językowych opartych na AI powoduje, że internauci i administratorzy witryn stoją przed dodatkowymi cyberniebezpieczeństwami. Dlatego warto przestrzegać podstawowych zasad cyberhigieny. Korzystajmy z oprogramowania antywirusowego i minimalizujmy nasz cyfrowy ślad, który może być potencjalnie wykorzystany do celów cyberprzestępczych” – mówi Dariusz Woźniak z firmy Marken Systemy Antywirusowe, polskiego dystrybutora oprogramowania Bitdefender.

Źródło: https://www.bitdefender.com/en-us/blog/hotforsecurity/400-tb-data-set-used-to-train-ai-has-api-keys-and-valid-credentials-researchers-find

Pobierz plik PDF

Informację można wykorzystać dowolnie z zastrzeżeniem podania firmy Marken Systemy Antywirusowe jako źródła.

Dane kontaktowe:

Sklep internetowy

sklep@bitdefender.pl

Pomoc techniczna

pomoc@bitdefender.pl

Marketing

promocje@marken.com.pl

Centrala

kontakt@marken.com.pl

    Formularz kontaktowy

    Wybierz odpowiednią opcję aby przejść do formularza kontaktowego. Odpowiemy najszybciej jak to możliwe!

    klient-indywidualnyklient-biznesowyreseller

    Dane kontaktowe




    stalynowy