Die Welt der synthetischen Daten und ihre Rolle für künstliche Intelligenz

Lesezeit: ca. 1 Minute
Zwei Löwen vor einem schwarzen Hintergrund. Einer ist echt und einer künstlich erzeugt.

Der Löwe und sein digitaler Zwilling: Auf dem Bild sind zwei Löwen zu sehen, doch nur einer wurde tatsächlich fotografiert. Der andere wurde künstlich erzeugt und besteht aus synthetischen Daten. Die Auflösung steht am Ende des Artikels.

Was sind synthetische Daten und wie unterscheiden sie sich von echten Daten?

Synthetische Daten sind künstlich generierte Daten. Sie basieren auf einen echten Datensatz, repräsentieren aber keine realen Ereignisse. Im Falle des künstlichen Löwen wurden mehrere Bilder von echten Löwen verwendet, um daraus ein Neues zu gestalten.

Synthetische Daten werden vor allem zum Trainieren von KI-Modellen eingesetzt. Eine künstliche Intelligenz lernt durch Daten, indem sie so lange Merkmale aus ihnen ableitet, bis sie eigenständig Rückschlüsse ziehen kann. Im Prinzip lernt sie wie ein Kind durch Regeln, Muster und Wiederholungen. Dabei gilt der einfache Grundsatz: Je mehr Daten der KI zugrunde liegen, desto intelligenter ist sie.

Warum werden synthetische Daten verwendet?

Es gibt verschiedene Gründe, warum synthetische Daten anstelle von echten Daten verwendet werden:

  • Mangel an Daten: Für ein KI-System werden je nach Anwendungsfall zwischen 500 und 100.000 Daten benötigt. Das kostet Zeit und Ressourcen, die sich einige Unternehmen nicht leisten können. Darüber hinaus ist in manchen Fällen die Erzeugung der Daten nicht möglich, da z. B. keine spezifischen NIO-Teile vorhanden sind.
  • Erweiterung und Vielfalt: Synthetische Daten ergänzen vorhandene Trainingsdaten und decken somit verschiedene Szenarien ab, wodurch eine künstliche Intelligenz intensiver trainiert werden kann.
  • Generalisierung: Was ist ein Fehler und was nicht? Da die Definition von Fehlern und Nicht-Fehlern subjektiv sein kann und Menschen Situationen unterschiedlich bewerten, ermöglichen synthetische Daten die Schaffung eines definierten Datensatzes.
  • Datenschutz: Wenn echte Daten sensible Informationen enthalten, können synthetische Daten verwendet werden, um die Privatsphäre und Sicherheit zu wahren.
  • Komplexität und Sicherheit: Die Produktqualität unter extremer Hitze testen oder einmal mit Haien schwimmen? Durch synthetische Daten können auch komplexe oder gefährliche Szenarien simuliert werden. Das gilt sowohl für die Industrie als auch für die Unterhaltungsbranche.

Wie werden synthetische Daten erstellt?

Die Erzeugung synthetischer Daten erfordert mindestens fünf reale Daten als Ausgangspunkt. Durch eine Kombination aus kreativen Ansätzen, Simulationen, generativen Verfahren und maschinellem Lernen werden die synthetischen Daten generiert. Diese verschiedenen Methoden arbeiten in Zusammenwirkung und werden abhängig vom konkreten Anwendungsfall unterschiedlich stark eingesetzt.

Können Bilder aus dem Internet als Basis für synthetische Daten verwendet werden?

Das synthetische Bild, das den Papst als Modeikone zeigt, ging viral. Es konnte generiert werden, da im Internet Tausende von Fotografien des Papsts existieren. Grundsätzlich sind im Internet mittlerweile nahezu von allem Bilder zu finden. Jedoch können diese Daten keine individuellen Anforderungen abdecken. Damit den spezifischen Anforderungen eines Anwendungsfalls gerecht werden kann, sind mindestens fünf echte Bilder als Ausgangsbasis notwendig. Aus dieser Grundlage können dann realitätsnahe synthetische Daten erzeugt werden.

Gibt es spezifische Branchen oder Anwendungsfälle, in denen synthetische Daten besonders nützlich sind?

Es gibt keinen klaren Trend für eine bestimmte Branche. Im Allgemeinen werden synthetische Daten als Ressource betrachtet, um schnell ans Ziel zu gelangen sowie effizientere Ergebnisse zu erzielen. In der Industrie werden synthetische Daten genauso häufig benötigt wie in der Unterhaltungsbranche. Ein Bereich, der allerdings besonders viel Potential bietet, ist die Medizin.

Anwendungsbeispiel: Diabetische Retinopathie

Die diabetische Retinopathie betrifft Millionen von Menschen in Entwicklungsländern. Dabei werden durch Diabetes Schäden an der Netzhaut verursacht, die häufig zur Erblindung führen. Wenn die Krankheit frühzeitig erkannt wird, kann sie gut behandelt werden. Allerdings fehlt es insbesondere in ländlichen Gebieten an Spezialistinnen und Spezialisten, die Kontrollen durchführen können.

Ein automatisches Netzhaut-Screening kann die Lücke in der Gesundheitsversorgung schließen. Hier kommt die Rolle synthetischer Daten ins Spiel. Sie ermöglichen die Simulation von verschiedenen Krankheitsszenarien und liefern realistische Trainingsdaten für Diagnosemodelle.

Eine Person wird auf die Krankheit diabetische Retionpathie untersucht. Dabei wird die Netzhaut untersucht.

Wichtig dabei zu verstehen ist, dass das Screening die ärztliche Beratung nicht ersetzt, sondern als Assistenz fungiert. Das System weist frühzeitig auf Probleme hin, woraufhin die Menschen die Chance haben, medizinisches Fachpersonal in größeren Städten aufzusuchen. Dieses kann die Diagnose überprüfen und ggf. eine Behandlung einleiten.

Welche Risiken gibt es?

Synthetische Daten müssen eine Qualitätsprüfung durchlaufen, um sicherzustellen, dass sie die Realität zum Aufbau eines neuronalen Netzes repräsentieren können. Leider sind sie nicht vor Missbrauch geschützt und könnten zum Trainieren von sicherheitsgefährdeten KI-Modellen verwendet werden. Die Europäische Kommission hat auf diese Bedrohung mit einem Gesetz zur Regulierung reagiert und den AI Act ins Leben gerufen. Darin werden KI-Systeme nach Risikostufen eingeordnet, die verschiedenen Regulierungen unterliegen.

Weitere potentielle Gefahren im Zusammenhang mit synthetischen Daten sind:

  • Überschreitung der Privatsphäre durch das Erstellen von Daten, die Personen ohne ihre Zustimmung in synthetischen Szenarien darstellen
  • Manipulation der öffentlichen Meinung durch gezielte Streuung von Fake News
  • Kreative Plagiate, wenn künstlerische Werke reproduziert oder verfälscht werden

Neben den gesetzlichen Regulierungen wird an Maßnahmen wie erweiterte Authentifizierungen sowie Erkennungs- und Analysetools gearbeitet, um diese Gefahren einzudämmen.

Fazit

Zusammenfassend lässt sich festhalten, dass synthetische Daten eine wichtige Rolle bei der Bewältigung von Datenknappheit und -qualität spielen. Sie ermöglichen es, Szenarien in Bereichen zu simulieren, in denen echte Daten schwer zugänglich oder sehr teuer sind. Somit tragen sie dazu bei, innovative Lösungen zu entwickeln. Dennoch birgt die Verwendung synthetischer Daten auch Herausforderungen, wie die Sicherstellung ihrer Qualität und die Verhinderung von Missbrauch. Ein verantwortungsbewusster Umgang mit synthetischen Daten ist unerlässlich, um ihre Vorteile optimal zu nutzen und gleichzeitig ethische Standards zu wahren.

Auflösung: Der linke Löwe ist der Echte!