Zero Data Retention

Vorgeschichte

Ein amerikanisches Bezirksgericht hat OpenAI dazu verpflichtet, die Daten seiner ChatGPT-Nutzer nicht zu löschen und weiter zu speichern, auch über vereinbarte Aufbewahrungsfristen hinaus und Löschverpflichtungen nicht zu befolgen. Hintergrund ist die Beweissicherung im Rahmen einer Klage mehrerer Verlagshäuser wegen Urheberrechtsvertetzungen durch die Chatbots.

Diese sog. Legal Hold-Gerichtsentscheidung steht im Widerspruch zum europäischen Datenschutzrecht. Wegen des zentralen ChatGPT-Datenmanagements (v.a. Speicherung der Daten für das KI-Training) sind auch alle Benutzer außerhalb der USA betroffen und können sich nicht sicher sein, was mit ihren Daten geschieht. Ausgenommen sind nur Nutzer mit einem relaviv teuren ChatGPT Enterprise-Vertrag oder solche mit einer Zero Data Retention-Regelung (ZDR), einer vertraglichen Zusicherung, dass keinerlei Daten über die Chatbot-Nutzung beim Provider gespeichert werden.

Zero Data Retention

Regelung zur Datenaufbewahrung von Chatbot-Daten

Für alle Unternehmen, die Chatbots nutzen, gibt es zurzeit drei Möglichkeiten, sich vor unkontrollierbarem Zugriff auf die von der Chatbot-Nutzung betroffenen Daten zu schützen:

Verzicht auf Produkte von US-amerikanischen Herstellern, die Daten innerhalb des US-amerikanischen Rechtsraums speichern,
Installation eigener Chatbots, die im unternehmenseigenen Rechenzentrum (natürlich mit Standort außerhalb der USA) oder einer private cloud des Unternehmens gespeichert werden oder
Vertragsabschluss einer Regelung über die Nicht-Speicherung der Chatbot-Daten außerhalb des Speichermediums, auf das nur die jeweils den Chatbot benutzende Person Zugriff hat.

Keine Datenweitergabe über vertragliche Regelung hinaus

Der erste Punkt betrifft die Entscheidung des Unternehmens. Schwierigkeiten bestehen allerdings noch bei Microsoft-Lösungen, bei denen Microsoft oder der betroffene Vertragspartner eine Datenspeicherung auf Servern mit Standorten im EU-Raum zusichert. Der amerikanische CLOUD Act (Clarifying Lawful Overseas Use of Data Act) erlaubt auf Anlass von US-amerikanischen Behörden auch den Zugriff auf Daten, die von US-amerikanischen Firmen außerhalb der USA gespeichert werden. Damit ist der Konflikt zwischen US-Recht und EU-Recht vorprogrammiert. Deshalb sollte vertraglich festgelegt werden:

Mit dem Vertragspartner [Name des Unternehmens, mit dem der Vertrag geschlossen wurde] und dem Unternehmen [ebenfalls Name] wird vereinbart, dass keine Daten der Chatbot-Nutzung an dem US-Recht unterliegende Firmen weitergegeben werden.

Keine Daten heißt keinerlei Daten, weder zu Trainings- noch zu anderen Zwecken. Juristen können das sicher besser formulieren.

Eigene Chatbots

Inzwischen gibt es zahlreiche Angebote, Large Language Models, wie sie jedem Chatbot zugrunde liegen, auf eigenen Rechnern des Unternehmens zu installieren. Viele dieser Angebote sind open Source und auch kommerziell nutzbar, manchmal allerdings unter bestimmten Einschränkungen. Dies gilt auch für Anbieter von kommerziellen Produkten, z.B. das Modell Mistral 7B der französischen Firma Mistral oder auch - mit gewissen Einschränkungen - LlaMA 3 von Meta, beide Produkte on premises installierbar. Es liegt also in der Organisationshoheit des Unternehmens, wie es den Betrieb gestalten will.

Interessant sind auch die zahlreicher werdenden Angebote vortrainierter Modelle, sog. General Pretrained Transformer-Produkte (GPT), die man um firmenspezifische Daten erweitern kann. Wenn man sicherstellt, dass - dank der on premise-Installation - die Daten die Firma nicht verlassen, ist der automatische Zugriff US-amerikanischer Behörden zumindest außerhalb des Geltungsraums von US-amerikanischem Recht ausgeschlossen. Das gilt auf jeden Fall, wenn es sich um eine nicht-amerikanische Firma handelt, die keinen Firmensitz in den USA hält und keine Chatbots betreibt, deren Software auf Cloud-Services von US-amerikanischen Firmen gespeichert sind (siehe auch Eigene Chatbots bauen).

Vertragliche Regelung der Nichtweitergabe von Daten

Unter dem Fachbegriff Zero Data Retention wird die vertragliche Regelung verstanden, keine Daten des Chatbot-Betriebs an den Systemhersteller (als Vertragspartner) weiterzugeben. OpenAI sichert für ChatGPT Enterprise-Nutzer vertraglich zu, „grundsätzlich“ keine Eingabe- und Ausgabe-Daten der Chatbot-Nutzung zu speichern. Was in diesem Zusamenhang „grundsätzlich“ bedeutet, sollte skeptisch stimmem.

Besser kann man das Anliegen der Datenweitergabe durch einen sog. Zero Data Retention-Vertrag lösen, in dem man technisch nachvollziehbar vereinbart, dass keine Daten weitergegeben werden. Leider gibt es noch keine Standards für solche Verträge. Die wenigen Hinweise auf solche Verträge beinhalten Regelungen wie

die Verpflichtung für den Chat-Betrieb, keine benutzerbezogenen Daten dauerhaft zu speichern, zu protokollieren oder zu analysieren,
d.h. alle verarbeiteten Daten unmittelbar nach Nutzung zu löschen und eine Zwischenspeicherung ausschließlich temporär und ausschließlich im RAM der Rechner vorzunehmen,
die bezeichneten Daten von der Erstellung von Backups, Logs oder Nutzungsstatistiken auszuschließen und
zu bestätigen, keine Drittanbieter einzusetzen, die gegen diese Grundsätze verstoßen.

Bei näherer Betrachtung ist eine Regelung nach diesem geschilderten Vorschlag auch nicht „wasserdicht“. Wenn z.B. ein sog. Drittanbieter, der einen Standort in den USA unterhält und eine Serverfarm im EU-Rechtsraum betreibt, so kann er gemäß CLOUD Act nach Interpretation US-amerikanischer Gerichte dennoch zur Herausgabe der angeforderten Daten aufgefordert und mit Sanktionen belegt werden, wenn er dieser Aufforderung nicht folgt.

Dass der Chefjustiziar von Microsoft France in einer Anhörung vor dem farnzösischen Senat unter Eid aussagen musste, nicht garantieren zu können, dass keine Daten französischer Bürger nach französischem Recht rechtswidrig an US-Behörden weitergegeben werden, dürfte das Misstrauen durchaus begründet erscheinen lassen. Immerhin hat der Vorfall die Forderung nach einer europäischen und nationalen digitalen Souveränität befördert.