Synthetische Daten: Lernen mit wenigen Bildern

Lesezeit: ca. 1 Minute
Ein Sinnbild von einem neuronalen Netz aus synthetischen Daten vor einem grünen Hintergrund.

Eine künstliche Intelligenz ist nur so intelligent, wie sie trainiert wurde.

Daten sind das neue Öl. Zumindest in der modernen Bildverarbeitung. Eine künstliche Intelligenz lernt eigenständig Schlussfolgerungen zu ziehen, indem sie Merkmale aus Texten, Bildern oder Vibrationsmustern ableitet. Dabei ist aber nicht nur die Menge an Daten entscheidend, sondern auch ihre Qualität.

Datengewinnung: Wie gelangt man an qualitativ hochwertige Daten?

Im besten Fall werden Originaldaten aus dem eigenem Anwendungsbereich gewonnen. Es ist zwar möglich, auf Open Source Daten zurückzugreifen, jedoch können diese von den eigenen Bedingungen im Unternehmen abweichen und somit zu unzuverlässigen Ergebnissen führen. In diesem Fall spricht man von einem Domain-Gap*.

Anwendungsbeispiele

Oberflächenfehler

Wenn man Oberflächenfehler wie Lunker und Risse auf Kunststoffteilen erkennen möchte, sollten verschiedene Bilder von akzeptablen (IO) und fehlerhaften (NIO) Teilen erstellt werden. Im nächsten Schritt werden die Bilder gelabelt. Dadurch wird der KI beigebracht, Muster und Merkmale zu erkennen, die auf Oberflächenfehler hinweisen. Auf dieser Grundlage kann die KI solche Fehler in anderen Bildern identifizieren. Je mehr Variationen an Bildern erstellt werden und je genauer das Labeling erfolgt, desto bessere Ergebnisse erzielt später das KI-Modell.

Viele Unternehmen können das Erstellen solch umfangreicher Daten aus Zeit- und Kapazitätsgründen nicht leisten. Zudem könnten unerwartete Variationen der Fehler auftreten, die nicht in den Datensatz einbezogen wurden. Auch besondere Umwelteeinflüsse wie Staub, Nässe, hohe Temperaturen oder wechselnde Lichtverhältnisse erschweren die Gewinnung von Daten.

Eine Person wird auf die Krankheit diabetische Retionpathie untersucht. Dabei wird die Netzhaut untersucht.

Parkplatzüberwachung

Ein anderes Beispiel ist die Datengewinnung zur Parkplatzüberwachung, bei welcher die Anzahl der belegten Parkplätze angezeigt werden soll. Hierbei ist es nicht nur erforderlich, verschiedene Fahrzeugmodelle zu erfassen, sondern auch auf unterschiedliche Wetterbedingungen zu reagieren. Zusätzlich müssen Anhänger, Motorräder und weitere Fahrzeuge berücksichtigt werden. Komplex wird es, wenn beispielsweise ein Schatten fälschlicherweise als belegter Parkplatz erkannt wird.

Ein Parkplatz von oben, manche Parkplätze sind belegt, andere nicht.

Weitere Probleme bei der Datengewinnung sind Situationen, die nur schwer oder unter gefährlichen Bedingungen nachgestellt werden können. In der Landwirtschaft und Lebensmittelsicherheit gibt es Schwierigkeiten bei der Gewinnung von Bildern seltener Krankheiten und Defekte. Dazu kommen Datenschutzrichtlinien, die sich durch Gesetze wie der DSGVO oder dem AI Act immer weiter verschärfen.

Synthetische Daten zur Ergänzung des Datensatzes

Angesichts dieser Herausforderungen, rückt die Bedeutung synthetischer Daten in den Fokus. Synthetische Daten sind künstlich generierte Bilder, welche die Schaffung gezielter Szenarien und Variationen ermöglichen. Dafür werden nur wenige reale Daten als Basis benötigt, aus denen Tausende von synthetischen Daten erstellt werden können.

Der Unterschied zwischen augmentierten Daten und synthetischen Daten

Es können auch vorhandene, echte Datensätze variiert werden, um fehlende Daten auszugleichen. Dafür werden Bilder beispielsweise rotiert oder in ihrer Helligkeit verändert. In diesem Fall spricht man von augmentierten Daten. Synthetische Daten bestehen dahingegen aus völlig neuen Datenpunkten ohne Eins-zu-eins-Beziehung zu den Originaldaten.

Zurück zum Anwendungsbeispiel, bei dem in einer Produktion Oberflächenfehler frühzeitig erkannt werden sollen.

Wir nehmen an, dass es dem Unternehmen möglich war, zehn reale Bilder IO- und NIO-Teilen zu erstellen. Die Bilder können gedreht, gespiegelt oder anderweitig bearbeitet werden, um den Datensatz zu erhöhen. Dennoch stellen diese augmentierten Daten lediglich verschiedene Varianten der bereits vorhandenen Bilder dar. Dahingegen können synthetische Daten Bilder simulieren, die den Fehler abwandeln, ihn an unterschiedlichen Stellen und unter verschiedenen Bedingungen (Hitze, Nässe, Staub) zeigen. Somit decken sie ein viel breiteres Anwendungsgebiet ab.

Wie gelange ich an synthetische Daten?

Auf visionpier finden Sie eine Vielzahl an Anbietern, die synthetische Daten für Ihren Anwendungsfall generien können. Darunter befinden sich synthetische Daten für:

  • Robotikanwendungen
  • Industrielle Inspektionsanwendungen
  • 2D/3D Gesichtsmodelle
  • Hocheffiziente Ersatzteilidentifikation
  • Pflanzenkrankheiten
  • und vieles mehr für Ihren spezifischen Use Case

Treten Sie kostenlos in Kontakt und lassen Sie sich beraten.

Eine Collage von zwei Tomatenrispen. Die eine ist gesund, auf der anderen ist ein Defekt zu erkennen.
Durch synthetische Daten können unter anderem seltene Pflanzenkrankheiten und Defekte abgedeckt werden.

*Was ist der Domain Gap?

Synthetische Daten werden u. a. genutzt, um einen Mangel an echten Trainingsdaten innerhalb einer Domäne auszugleichen. Der Begriff Domäne beschreibt in diesem Zusammenhang den Anwendungsbereich, für den die künstliche Intelligenz erstellt wird.

Wenn ein KI-Modell zum Beispiel darauf trainiert wird, fehlende Schrauben an einem bestimmten Automodell zu erkennen, kann es vorkommen, dass sie fehlende Schrauben an anderen Automodellen nicht erkennt. In diesem Fall spricht man von einem Domain Gap. Damit ein KI-Modell für mehrere Anwendungsfälle geeignet ist, muss sie mit Daten aus verschiedenen Quellen und Variationen trainiert werden.

Dennoch ist es schwierig, mit einem KI-Modell sämtliche Anwendungsfälle abzudecken. Für eine optimale Leistungsfähigkeit wird daher in der Praxis häufig domänenspezifisch trainiert.