Synthetische Daten: Große Hoffnung für späte Starter bei künstlicher Intelligenz

Foto: CC0 1.0, Pixabay / geralt | Ausschnitt bearbeitet

Veröffentlicht am 09.08.2018

^{Foto: CC0 1.0, Pixabay / geralt | Ausschnitt bearbeitet}

Startups und viele traditionelle Unternehmen haben ein Problem: zu wenige Daten zum Trainieren von künstlicher Intelligenz (KI). Das ist auch ein strategischer Nachteil für Deutschland und Europa als Standorte für die KI-Entwicklung, wie die Diskussion beim jüngsten Lunch-Talk (öffnet in neuem Tab) von AI Hub Europe im Telefónica BASECAMP zeigte. Und die Lösung? Synthetische Daten, die aus dem Computer kommen! Sie sind oft sogar besser als echte Daten aus der realen Welt, weil sie gleich das richtige Label tragen.

„In den vergangenen zwanzig Jahren gelang es einer jungen Generation von Superstar-Firmen, mit digitalen Plattformen neue Quasi-Monopole zu errichten“, sagte der KI-Experte und Buchautor Thomas Ramge im März bei einem Interview (öffnet in neuem Tab) für das Telefónica BASECAMP. „Dieser ‚The-Winner-Takes-It-All-Trend‘ wird sich in den kommenden Jahren weiter verstärken, wenn aus Daten lernende KI-Systeme der Digitalisierung und datenreichen Märkten den Turbo zuschalten.“

Feedback-Effekte: Vorteil für datenreiche Unternehmen

Firmen wie Google oder Amazon seien zu stark im Vorteil. Für sie wirken Feedback-Effekte, die Unternehmen mit großen Datenmengen systematisch bevorteilen: Wer die meisten Daten hat, der kann auch die meisten Muster darin erkennen und seine KI damit am besten trainieren. Das gilt besonders für das autonome Fahren, bei dem die künstliche Intelligenz am Steuer sitzt.

unsplash Strasse Kreuzung Autobahn Stau Verkehr Autos — Foto: Unsplash (öffnet in neuem Tab) / Denys Nevozhai / Ausschnitt bearbeitet

Die Google-Schwesterfirma Waymo entwickelt bereits seit 2009 fahrerlose Autos und hat schon 9,6 Millionen Kilometer (öffnet in neuem Tab) bei Testfahrten auf öffentlichen Straßen sowie acht Milliarden Kilometer im Simulator zurückgelegt. Kein anderer Konzern kann auf so viele Trainingsdaten verweisen und besonders deutsche Autohersteller haben es schwer, diesen Vorsprung aufzuholen. Denn in der Bundesrepublik sind bisher nur ein paar Kilometer auf der Autobahn 9 für solche Tests freigegeben.

Monopole vermeiden: Progressive Daten-Sharing-Pflicht?

Deshalb schlagen Viktor Mayer-Schönberger und Thomas Ramge in ihrem Buch Das Digital (öffnet in neuem Tab) eine gesetzlich verankerte Pflicht zum Teilen von Daten vor, um Monopole zu vermeiden. Eine progressive Daten-Sharing-Pflicht soll den Wettbewerb immer wieder stärken, erklärten sie bei der Buchvorstellung im Telefónica BASECAMP (öffnet in neuem Tab). Datenreiche Unternehmen müssten dann einen Teil ihrer Trainingsdaten für andere Firmen und Startups bereitstellen. Das gilt selbst für die direkte Konkurrenz.

Ramge-Schoenberger--Goebel-DAS-DIGITAL-0541-1280x720 — Thomas Ramge und Viktor Mayer-Schönberger (links) im Telefónica BASECAMP. | Foto: Henrik Andree

Doch es gibt noch andere Wege: Synthetische Daten entstehen künstlich. Sie wirken extrem realistisch und werden von Algorithmen erzeugt, um Lernmodelle damit zu trainieren. Auf diese Weise können auch Grenzbereiche getestet werden, die sich unter realen Bedingungen kaum überprüfen lassen. Die Technische Universität Darmstadt trainierte beispielsweise ihren Algorithmus für selbstfahrende Autos mit Grand Theft Auto (öffnet in neuem Tab), weil der Straßenverkehr in diesem Computerspiel besonders realitätsnah ist.

Synthetische Daten: Autonomes Fahren durch GTA5 lernen

Die Forscher erstellten eine Software-Schicht, die Objekte in dem Spiel automatisch erkennt und klassifiziert. Diese Labels werden einem Lernalgorithmus zugeführt, der damit Passanten, Autos oder andere Hindernisse erkennt: nicht nur im Spiel, sondern auch auf einer echten Straße. In ihrer Veröffentlichung (öffnet in neuem Tab) sagen die Forscher, dass es unmöglich gewesen wäre, diese Daten und Fahrsituationen manuell zu klassifizieren. Außerdem kann man besondere Umstände wie Unwetter oder Verkehrsunfälle mit dem Computerspiel simulieren. Doch das ist nur eins von vielen Beispielen, wie synthetische Daten helfen können.

Bei YouTube anschauen

Bei TechCrunch gibt es einen langen Artikel (öffnet in neuem Tab), der unter anderem zeigt, wie Roboter in wenigen Sekunden durch Imitation lernen können: Sie erfassen Daten von einer VR-Brille, die ein Mensch trägt, um damit synthetische Objekte in der virtuellen Realität zu bewegen. Die Bewegungen seiner Hand müssen nur noch kopiert werden. In dem Artikel wird auch erklärt, wie Startups den großen Vorsprung von Amazon aufholen können – und wie der Unterschied zwischen synthetischen und echten Daten immer kleiner wird. Die fotorealistischen Simulationen sind heute schon gut genug, um neuronale Netze einigermaßen zu trainieren. Sie müssen später nur noch durch echte Bilder ergänzt werden.

Empfehlung der Redaktion

27. Nov. 2025

Synthetische Daten: Große Hoffnung für späte Starter bei künstlicher Intelligenz

Feedback-Effekte: Vorteil für datenreiche Unternehmen

Monopole vermeiden: Progressive Daten-Sharing-Pflicht?

Synthetische Daten: Autonomes Fahren durch GTA5 lernen

Schlagworte

Empfehlung der Redaktion

KI Bundesverband: Mitgliederversammlung 2025

BASECAMP Trend2Go!: KI ist wie ein Exoskelett für das Denken – wie unterstützen uns Maschinen beim Leben und Arbeiten?

BASECAMP Trend2Go!: Ein Date mit deinem Gehirn (Buchvorstellung)

Wirtschaftsvereinigung der Grünen: Digitale Souveränität – wie behauptet sich Europa im KI-Zeitalter

UdL Digital Talk mit Dr. Karsten Wildberger und Fränzi Kühne: Deutschlands Digitalisierung – warum nicht einfach machen?

Arbeiten mit KI: UdL Digital Talk mit Hubertus Heil und Anja Hendel

UdL Digital Talk Nachbericht: Menschen und Maschinen – ein politischer Rahmen für Künstliche Intelligenz

Jahresrückblick: Die BASECAMP Highlights 2025

KI verstehen: Das Rennen um KI-Patente

Autor:in