Julia Mutzbauer
Editorial Manager at CSO

Forscher entdecken LLM-Sicherheitsrisiko

News
03 März 20251 Minuten

Security-Forscher haben herausgefunden, dass rund 12.000 aktive API-Schlüssel und Passwörter verwendet werden, um große Sprachmodelle (LLMs) zu schulen.

Forscher haben Anmeldeinformationen in den Trainingsdaten von Large Language Models entdeckt.

BOY ANTHONY – Shutterstock.com

Beliebte LLMs wie DeepSeek werden mit Common Crawl trainiert, einem riesigen Datensatz mit Website-Informationen. Forscher von Truffle Security haben kürzlich einen Datensatz des Webarchives analysiert, der über 250 Milliarden Seiten umfasst und Daten von 47,5 Millionen Hosts enthält. Dabei stellten sie fest, dass rund 12.000 hartcodierte Live-API-Schlüssel und Passwörter dazu zählen.

Der Analyse zufolge enthält das Datenpaket von Common Crawl insgesamt 219 verschiedene Geheimnistypen. Darunter Amazon Web Services (AWS) Root-Schlüssel, Slack-Webhooks und Mailchimp-API-Schlüssel. Da man sich mit diesen Anmeldedaten erfolgreich authentifizieren kann, stellen sie sowohl für Benutzer als auch für Organisationen ein erhebliches Sicherheitsrisiko dar.

„Dies verdeutlicht ein wachsendes Problem: LLMs, die mit unsicherem Code trainiert wurden, können versehentlich unsichere Ausgaben generieren“, warnen die Forscher. Demnach können LLMs während des Trainings nicht zwischen gültigen und ungültigen Geheimnissen unterscheiden. „Das bedeutet, dass beide gleichermaßen zur Bereitstellung unsicherer Codebeispiele beitragen“, heißt es im Forschungsbericht.

Exit mobile version