KI in der Krise: Trainingsdaten werden Mangelware

Die Trainingsdaten für KI-Sprachmodelle wie GPT, Claude oder LlaMa haben Terabyte-Größe. Doch das Internet ist inzwischen komplett leer gesaugt, frische Daten werden knapp und teuer.

11. Juni 2024

7 Min. Lesezeit

Bild von Euro-Geldscheinen

Mehr ist besser – das Prinzip der großen Zahl gilt beim Training von KI-Anwendungen bis heute. GPT-2 war das erste wirklich nutzbare Sprachmodell von OpenAI und erschien im Februar 2019. Wer einen Textanfang eingab, konnte das Sprachmodell dabei beobachten, wie es die Story weiterschrieb. Der Nutzwert war gering, die Ergebnisse kurios bis lustig und so richtig hat niemand verstanden, was das soll.

Im Rückblick ist das kein Wunder. Der Trainingsdatensatz hatte lediglich einen Umfang von 40 GByte und war damit vergleichsweise klein. Im November 2021 jedoch erschien das Nachfolgemodell GPT-3 und wurde als „ChatGPT“ der Allgemeinheit präsentiert. Es durchbrach eine Schallmauer: Der Trainingsdatensatz war 570 GByte groß. Durch die größere Menge an Sprachbeispielen waren erstmals echte Dialoge mit sinnvollen Antworten möglich.

Aktuell ist die Version GPT-4, die mit einigen Terabyte an Daten trainiert wurde. Sie besitzt noch höhere Fähigkeiten und ist mehrfach nachgebessert worden. Doch es zeigt sich, dass die Materialschlacht an ein natürliches Ende kommt. Denn sie nutzt in erster Linie frei und kostenlos im Internet verfügbare Texte – und der bisher ungenutzte Vorrat geht zur Neige.

Die Trainingsdatenkrise der KI

Die wichtigste Quelle von Trainingsdaten für OpenAI und seine Konkurrenten ist der sogenannte Common Crawl. Das ist ein offenes Repository von Webdaten mit mehreren Petabytes Umfang. Der kostenlose Korpus wird von einer gemeinnützigen Stiftung verwaltet. Er wurde über mehr als ein Jahrzehnt hinweg gesammelt und enthält alles, was im Internet zu finden ist.

Aber inzwischen ist das Netz leergesaugt. Lediglich hinter Fire- und Paywalls gibt es noch Material, bewacht von Anwälten, die sich mit Copyright-Verletzungen bestens auskennen. Um darauf Zugriff zu erhalten, hat zum Beispiel OpenAI Lizenzvereinbarungen mit großen Verlagen geschlossen, aber auch mit Internetservices wie Reddit. Alternativ greifen die Unternehmen auf die Daten ihrer Nutzer zu. Meta zum Beispiel hat die AGB geändert und will nun Texte und Bilder seiner Kunden auswerten.

Die Menge an Daten ist riesig, aber trotzdem begrenzt. Diese Trainingsdatenkrise ruft nach einer Gegenstrategie. Den KI-Entwicklern bieten sich drei Möglichkeiten: Sie können Trainingsdaten selbst entwickeln, synthetische Daten einsetzen und effizientere Modelle entwickeln, die niedrigere Ansprüchen an die Größe der Trainingsdaten haben.

Trainingsdaten selbst entwickeln

So ist es sinnvoll, Trainingsdaten exklusiv herzustellen. In einem gewissen Rahmen gibt es das bereits seit Jahren. KI-Unternehmen lassen Daten für das Training von menschlichen Mitarbeitern aufbereiten. Ein typisches Beispiel sind verschlagwortete Fotos für Bilderkennungs-KIs. Solche Datensätze sind jedoch aufwendig und teuer, da sie von Menschen aus der Clickworker-Szene angefertigt werden müssen. Je präziser die Schlagworte sein sollen, desto langsamer entsteht ein umfangreicher Datensatz.

Inzwischen wird dieses Prinzip auch auf Sprachmodelle übertragen. So lassen einige Hersteller Aufsätze und andere Beispieltexte von Autoren verfassen. Und der Softwareanbieter Adobe bezahlt Künstler dafür, Bilder und Zeichnungen eigens für das Training einzuschicken.

Diese Vorgehensweise hat eine Reihe von Vorteilen, sofern die Autoren der Texte fair spielen und nicht ihrerseits KI einsetzen. Wenn es „echte“ Texte sind, vergrößern sie tatsächlich den Pool des Common Crawl an Alltagstexten. Um die Kosten niedrig zu halten, gibt es weiterhin die Möglichkeit, Daten ohne die Mitwirkung von Menschen automatisch zu erzeugen.

Synthetische Daten nutzen

Synthetische Daten sind echt wirkende, aber maschinell erzeugte Daten. Ihr Einsatz ist schon seit längerer Zeit weit verbreitet, zum Beispiel im Software-Engineering. Entwickler nutzen synthetische Daten für Softwaretests, wenn der Zugriff auf Echtdaten etwa durch den Datenschutz gegrenzt ist. Synthetische Daten werden auch in anderen Bereichen eingesetzt, unter anderem zum Training von KI-Modellen.

Es gibt eine Vielzahl von Methoden, synthetische Daten in sehr unterschiedlichen Datenformaten zu erzeugen. So lässt sich beispielsweise eine vollständig synthetische Kundendatenbank relativ leicht aus Listen von Namen, Straßen und Städten zusammenstellen. Trainingsdaten für Sprachmodelle sind dagegen schwieriger zu erzeugen. Üblicherweise werden dafür neuronale Netzwerke eingesetzt. Eine einfache Möglichkeit besteht darin, ein solches Netzwerk auf die gewünschten Datenstrukturen zu trainieren und sie dann neue Daten erzeugen zu lassen.

Die Gefahr bei synthetischen Daten

Seit zwei Jahren gibt es einen leistungsfähigen Erzeuger synthetischer Daten: ChatGPT. Es ist aber keine gute Idee, damit Sprachmodelle zu trainieren. KI-Forscher haben herausgefunden, dass modellgenerierte Inhalte beim Training irreversible Defekte erzeugen. Besonders drastisch fällt dieser Effekt bei Bild-KIs wie Stable Diffusion oder Midjourney aus. Die Forscher haben das Phänomen „Modellkollaps“ getauft. Er zeigt sich unter anderem am allmählichen Verlust seltener Grenzfällen.

Dahinter steckt eine Kerneigenschaft von Sprachmodellen: Sie liefern den wahrscheinlichsten Output für eine Eingabe und berücksichtigen deshalb seltene Daten weniger oft. Ein vereinfachtes Beispiel: Dall-E wird nach der Anweisung „Zeichne ein Tier im Zoo“ deutlich seltener Ameisenbären oder Schnabeltiere zeichnen. Durch wiederholte Trainingsrunden mit den erzeugten Daten verschwinden nach und nach alle seltenen Fälle.

In diesem Zusammenhang gibt es noch eine weitere Gefahr: Die „Vermüllung“ des Internets mit KI-Texten, die unbeabsichtigt zu einem Modellkollaps führen. Denn im Moment fehlt ein Kennzeichnungsstandard für KI-generierte Inhalte, so dass über die Zeit hinweg der KI-Anteil im Common Crawl ansteigen wird und das Training erschwert. Um diese Gefahr zu verringern, setzen viele KI-Entwickler inzwischen auf Seiten der Modelle und der Trainingsmaßnahmen an.

Effizientere Modelle entwickeln

Die großen Sprachmodelle mit ihren riesigen Trainingsdatensätzen sind beeindruckend, haben aber hohe Betriebskosten. Zudem sind sie für Unternehmen unpraktisch, da sie auf große Datenspeicher und Cloudzugriffe angewiesen sind. Die Bedürfnisse der Wirtschaft gehen in eine andere Richtung: Dezentrale, schnelle, schlanke, effiziente und kostengünstige Modelle, die im Rahmen von Edge-Computing vor Ort eingesetzt werden können – idealerweise auch unter erschwerten Bedingungen ohne Netzzugang und externe Stromversorgung.

Deshalb durchläuft die KI-Entwicklung zurzeit einen Paradigmenwechsel. Effiziente Datennutzung und Optimierung der Modelle rücken in den Vordergrund. Dass schlanke Sprachmodelle (Small Language Models, SLMs) trotzdem auf Augenhöhe mit ChatGPT 3.5 sind, hat Microsoft Research kürzlich demonstriert. Die neue Modellfamilie Phi 3 ist für den Einsatz auf Endgeräten gedacht, etwa Smartphones oder Bürocomputer. Neue Methoden beim Training sorgen dafür, dass auch diese kleineren Modelle ausreichend leistungsfähig sind und viele Aufgaben erfüllen – bisher allerdings nur auf Englisch.

Fazit: Große Zukunft für kleine Modelle

Gut möglich, dass der ersehnte GPT-4-Nachfolger und seine Konkurrenten die Wachstumsphase der LLMs beenden werden. Angesichts der Trainingsdatenkrise ist es eher unwahrscheinlich, dass noch mehr Daten die Modelle deutlich verbessern. Denn zunächst muss man diese Daten ja haben und das bedeutet zunehmend: Für sehr viel Geld anfertigen lassen. Ob das tatsächlich wirtschaftlich ist?

Angesichts dessen ist es denkbar, dass sich KI in der nächsten Zeit vor allem in Richtung Effizienz und größerer Präzision weiterentwickeln wird. Das betrifft sowohl die LLMs als auch ihre kleinen Vettern. SLMs haben ein hohes Potenzial. Für ihr Training ist es deutlich wirtschaftlicher, in erster Linie auf ausgewählte und geprüfte Daten zu setzen, sowohl aus dem Common Crawl als auch aus „Datensynthesizern“.

Das ist eine Chance für den viel gescholtenen deutschen Mittelstand, der den Anschluss an das Silicon Valley verloren hat. Das Potenzial von SLMs in der Industrie ist immens. Sowohl die Entwicklung als auch der Betrieb lassen sich recht problemlos mit den typischen IT-Etats deutscher Mittelständlern stemmen, denn es kommt in erster Linie auf smarte Data Science an. Erfolgsentscheidend sind die richtigen Trainingsdaten und die besseren Lernmethoden. Diese Chance sollten deutsche KMUs ergreifen..