Die großen Datentöpfe

Die großen Datentöpfe der KI-Sprachmodelle

Die Large Language Models heißen u.a.deshalb Large, weil sie mit riesig großen Datenmengen trainiert worden sind bzw. werden. Viele dieser Datentöpfe sind auch öffentlich zugänglich. Hier die wichtigsten:

Common Crawl: Das ist der große Datenschatz, den die von den Suchmaschinenanbietern benutzten Crawler regelmäßig abgrasen, um die Internet-Seiten für die Benutzerinnen und Benutzer auffindbar zu machen. Sie enthalten die Titel der einzelnen Seiten deren Metadaten wie Erstellunsdatum, Autoren, sog. Keywords und eine Reihe weiterer Merkmale. Der Daten-Corpus ist in mehrere Subtypen unterteilt.

Wikipedia: Fast kein Modell verzichtet auf diesen immer noch als sehr wertvoll erachteten großen Datenschatz, der den zusätzlichen Vorteil aufweist, in sehr vielen Sprachen vorzuliegen.

WebText: Eine Sammlung von ca. 40 GB ausgewählter Internet-Seiten. Sie wurde von Google AI erstellt und umfasst Texte aus einer Vielzahl von Quellen, darunter Websites, Blogs, Foren und soziale Medien. Die Texte sind ebenfalls in vielen Sprachen verfügbar.

BooksCorpus: Buchtexte von über 10.000 Büchern mit über einer Milliarde Wörtern, mit einer Auswahl aus Belletristik, Sachbüchern und Fachliteratur. Die Sammlung wird als wertvoll für Forschung und Entwicklung betrachtet. Sie ist öffentlich zugänglich. Die Sammlung wird von Menschen überwacht, die sicherstellen sollen, dass die Texte qualitativ hochwertig sind. Es gibt noch weitere ähnliche Sammlungen mit geringerem Umfang wie z.B. der Toronto Book Corpus mit Büchern, die von einer bestimmten Weksite herunter ladbar sind und nicht von Menschen überwacht wird.

OpenSubtitles: eine Sammlung von Untertiteln aus Filmen, Fernsehsendungen und anderen Videoinhalten, in vielen Sprachen (sogar Chinesisch) und öffentlich zugänglich. Sie wird Werkzeug in Forschung und Entwicklung geschätzt, v.a. für die Verarbeitung und Analyse von Untertiteln und ihres stark dialogorientierten Inhalts.

English Gigaword: eine Sammlung von Nachrichtentexten in englischer Sprache. Sie wurde vom Linguistic Data Consortium erstellt und umfasst Texte aus einer Vielzahl von Quellen, darunter Nachrichtenagenturen, Zeitungen und Zeitschriften.

Stanford Question Answering Dataset: spezialisiert für Systeme zur Beantwortung von Fragen, eine Sammlung von über 100.000 Frage-Antwort-Paaren, die hauptsächlich aus Wikipedia-Artikeln abgeleitet wurden.

Common datasets for translation tasks: mit in vielen Sprachen vorliegende Texte geleichen Inhalts, v.a. von internationalen Organisationen z.B. European Parliament Proceedings (Europarl) und MuliUN mit Dokumenten der UNO.

Eine Vielzahl weiterer kleinerer Datensammlungen, oft für spezialisierte Zwecke, z.B. die von der University of Pennsylvania bereit gestellte Penn Treebank mit gelabelten Daten aus Zeitungsartikeln, Büchern und wissenschaftlichen Arbeiten, vorzugsweise von der Washington Post. Sie sind für ein entsprechend spezialisiertes Finetuning der Sprachmodelle gut geeignet.

Weitgehende Intransparenz

Die kommerziellen Chatbot-Anbieter verwenden meist zusätzliche Daten für ihre Trainings, die sie nicht offenlegen. Um aktuell zu bleiben, finden in kurzen Zeitabständen Nachtrainings mit zwischenzeitlich neu entstandenen Daten statt, deren Herkunft bzw. Auswahl wenn überhaupt nur begrenzt offengelegt wird.

So hat OpenAI z.B. mit dem Axel-Springer-Verlag einen Vertrag abgeschlossen, um dessen digitalisierte Inhalte einschließlich der Bild-Zeitung zu Trainingszwecken nutzen zu dürfen.

Google verkündet mit seiner Umstellung von Bard zu Gemini, den für das System aufbereiteten Datenumfang einschließlich der Trainingsdaten nicht öffentlich zu benennen, räumt aber ein, dass es sich dabei um

Quelle: Google Gemini-Anfrage vom 15.2.2024: Mit welchen Daten wurde Gemini trainiert?

handelt. Auch der Umfang des Trainingsdatensatzes wird nicht veröffentlicht. Es wird lediglich mitgeteilt, dass in regelmäßigen Abständen ein Nachtraining mit neuen Daten erfolgt, wie oft und um welche Daten es sich dabei handelt: weiter unbekannt.

Karl Schmitz

10.2.2024