Trainieren KI-Coding-Tools mit unserem Quellcode?

Das hängt von der Tarifstufe, den Kontoeinstellungen und dem Vertrag ab — nicht vom Ruf des Anbieters. Die meisten großen Business- und Enterprise-Tarife erklären ausdrücklich, dass sie Code und Prompts nicht zum Modelltraining verwenden, viele bieten sogar Optionen ganz ohne Datenspeicherung an. Beim Gratis-Tarif desselben Produkts steht oft das Gegenteil, und die Voreinstellungen sind nicht automatisch die sichere Wahl.

Was ist der Unterschied zwischen Modelltraining, Datenspeicherung und menschlicher Prüfung bei KI-Tools?

Das sind drei verschiedene Risikofelder. Modelltraining fragt, ob Ihr Code in die Ausgaben einfließt, die anderen Kunden angezeigt werden. Speicherung fragt, wie lange Prompts und Antworten wo aufbewahrt werden. Menschliche Prüfung fragt, ob Mitarbeitende des Anbieters Ihre Prompts mitlesen können — ein grundlegend anderes Risiko als ein Modell. Wenn ein Anbieter sagt "wir trainieren nicht mit Ihren Daten", beantwortet das nur den ersten Punkt; alle drei sollten Sie sich schriftlich bestätigen lassen.

Wie prüfen wir verbindlich, ob ein KI-Coding-Tool unsere Daten zum Training nutzt?

Lesen Sie die Regeln zum Datenumgang für genau Ihren Tarif — nicht die Marketingseite — also Nutzungsbedingungen, AVV und Trust-Dokumentation. Fragen Sie den Anbieter schriftlich nach Trainingsnutzung, Speicherdauer, menschlicher Prüfung und einem Modus ohne Datenspeicherung. Prüfen Sie anschließend, ob der organisationsweite Schalter für Training und Telemetrie korrekt gesetzt ist und Entwickler ihn nicht unbemerkt umstellen können. Verlassen können Sie sich im Ernstfall nur auf eine vertragliche Zusage — ein Schalter kann sich mit jedem Produkt-Update ändern.

Welche Daten gehören unter keinen Umständen in einen Prompt, egal welche Richtlinie der Anbieter hat?

Tokens, Zugangsdaten, Kundendaten und Produktionsdaten haben in keinem KI-Coding-Tool etwas zu suchen, unabhängig von der Speicherrichtlinie. Setzen Sie das mit Pre-Commit-Hooks und Tools zur Prompt-Bereinigung durch, nicht mit Disziplin. Wo ein Tool Ihr Repository indexiert, schließen Sie über die Ignore-Konfiguration Verzeichnisse mit Secrets, Infrastruktur und sensibler Geschäftslogik gezielt aus.

Trainieren KI-Coding-Tools mit Ihrem Code? Was Sie vor der Einführung klären sollten

Es ist die erste Frage, die Security zu jedem KI-Coding-Tool stellt, und die, auf die sich Entwickler am dringendsten eine klare Antwort wünschen: Trainiert dieses Ding mit unserem Code?

Kurz gesagt: Es hängt von der Produktstufe ab, von den Einstellungen im Konto und vom Vertrag, den Sie unterschrieben haben, nicht vom Ruf des Anbieters. Die meisten großen Business- und Enterprise-Tarife sagen inzwischen klar, dass sie Ihren Code und Ihre Prompts nicht zum Training ihrer Modelle verwenden, und viele bieten Optionen ganz ohne Datenspeicherung an. Beim kostenlosen Tarif desselben Produkts steht aber oft das Gegenteil, und die Voreinstellungen sind nicht automatisch die sichere Wahl. Ob Sie geschützt oder exponiert sind, entscheidet meist ein Plan und ein Schalter, nicht eine Marke.

Wir unterstützen Entwicklungsteams dabei, diese Frage sauber zu beantworten, nicht aus dem Bauch heraus, sondern anhand der konkreten Punkte, die sich überprüfen lassen, bevor ein Tool an Ihre Repositories darf. Das gehört auf die Prüfliste.

Was „mit Ihrem Code trainieren“ eigentlich heißt

Hinter dieser Formulierung stecken drei verschiedene Themen, die man auseinanderhalten muss, denn ein Tool kann beim einen unbedenklich sein und beim anderen nicht.

Thema	Die eigentliche Frage	Warum es zählt
Modelltraining	Wird Ihr Code genutzt, um die Modelle des Anbieters zu trainieren oder zu finetunen?	Ihre Logik könnte in Ausgaben einfließen, die anderen Kunden angezeigt werden
Speicherung	Wie lange werden Prompts und Antworten gespeichert, und wo?	Was gespeichert wird, kann abfließen, behördlich angefordert oder falsch behandelt werden
Menschliche Prüfung	Können Mitarbeiter des Anbieters Ihre Prompts mitlesen, etwa zur Missbrauchskontrolle?	Ein Mensch, der proprietären Code sieht, ist ein anderes Risiko als ein Modell

Wenn ein Anbieter sagt „wir trainieren nicht mit Ihren Daten“, beantwortet das nur den ersten Punkt. Eine vollständige Antwort deckt alle drei ab, und genau die sollten Sie sich schriftlich geben lassen.

Über die Voreinstellung entscheidet meist die Tarifstufe

Der mit Abstand wichtigste Faktor ist, auf welcher Stufe Sie sind. Das Muster zieht sich quer durch den Markt, konsistent genug, um danach zu planen, auch wenn die Details je nach Anbieter abweichen und sich über die Zeit verschieben.

Privat- und Gratis-Tarife nutzen Ihre Eingaben oft standardmäßig zur Produktverbesserung, manchmal mit einer Opt-out-Möglichkeit, die tief in den Einstellungen vergraben ist. Das sind die Tarife, für die sich einzelne Entwickler auf eigene Faust anmelden, und genau so entsteht durch Shadow AI ein Risiko, das niemand freigegeben hat.
Business- und Team-Tarife sagen in der Regel zu, dass sie nicht mit Ihren Inhalten trainieren, und speichern Daten oft nur kurz zur Missbrauchskontrolle.
Enterprise-Tarife kommen meist mit vertraglichen Regelungen zur Datenverarbeitung dazu, mit Optionen für keine oder eine kurze Speicherdauer und mitunter mit der Möglichkeit, das Tool in Ihrer eigenen Cloud-Umgebung zu betreiben.

Die Folge ist eindeutig: Ein Entwickler auf dem Gratis-Tarif eines Tools und eine Organisation auf dem Enterprise-Tarif desselben Tools können in völlig unterschiedlichen Risikolagen stecken. Das Logo allein sagt fast nichts aus.

Nachprüfen statt voraussetzen

Ein guter Ruf ist keine Kontrolle. Holen Sie sich konkrete Antworten, bevor ein Tool freigegeben wird, und legen Sie sie ab.

Lesen Sie die Regeln zum Datenumgang für genau Ihren Tarif, nicht die Marketingseite. Maßgeblich ist, was in den Nutzungsbedingungen, im AVV und in der Trust-/Security-Dokumentation steht.
Fragen Sie den Anbieter schriftlich: Trainieren Sie mit unseren Prompts oder unserem Code? Wie lange werden Daten gespeichert? Gibt es eine menschliche Prüfung, und lässt sie sich abschalten? Ist ein Modus ganz ohne Datenspeicherung verfügbar?
Prüfen Sie die Einstellungen selbst. Viele Tools haben auf Organisationsebene einen Schalter für Training und Telemetrie. Vergewissern Sie sich, dass die sichere Einstellung aktiv ist, und dass Entwickler sie nicht unbemerkt umstellen können.
Klären Sie Unterauftragsverarbeiter und Region. Finden Sie heraus, wer die Daten sonst noch verarbeitet und wo sie liegen, wichtig für Ihre DSGVO-Pflichten, sobald personenbezogene Daten in einen Prompt geraten.
Verankern Sie es im Vertrag. Ein Schalter kann sich mit dem nächsten Produkt-Update ändern. Verlassen können Sie sich im Ernstfall nur auf eine vertragliche Zusage.

Das ist der Kern einer Sicherheitsprüfung von KI-Tool-Anbietern: Die Antworten gibt es, aber nur, wenn Sie sie als Teil der Freigabe einfordern und nicht erst nach einem Vorfall.

Senden Sie von vornherein weniger

Selbst bei den besten Vertragsbedingungen gilt: Am risikoärmsten sind die Daten, die das Haus gar nicht erst verlassen. Zwei Gewohnheiten senken das Risiko, ganz gleich, was in der Richtlinie des Anbieters steht.

Halten Sie Secrets und personenbezogene Daten aus Prompts heraus. Tokens, Zugangsdaten, Kundendaten und Produktionsdaten gehören in kein Tool, egal, welche Speicherrichtlinie gilt. Setzen Sie das mit Pre-Commit-Hooks und Tools zur Prompt-Bereinigung durch, nicht mit Disziplin.
Begrenzen Sie, was das Tool sieht. Wenn ein Tool Ihr Repository indexiert, schließen Sie über dessen Ignore-Konfiguration die Verzeichnisse aus, die es nicht braucht: Secrets, Infrastruktur, sensible Geschäftslogik.

Dahinter steckt derselbe Grundgedanke wie beim sicheren KI-gestützten Coding insgesamt: so wenig wie möglich preisgeben, damit eine schlechte Richtlinie oder ein Datenleck weniger anrichten kann.

Schreiben Sie die Antwort in Ihre Richtlinie

Sobald Sie die Fakten geprüft haben, halten Sie sie schriftlich fest, damit jeder Entwickler die Entscheidung übernimmt, statt sie immer wieder neu aufzurollen.

Die freigegebenen Tools und Tarifstufen, ausdrücklich benannt: der Enterprise-Tarif ist freigegeben, der Gratis-Tarif nicht.
Die vorgeschriebenen Einstellungen, damit Training und Telemetrie dort aus sind, wo sie aus sein sollen.
Die Datenregeln: was niemals in einen Prompt gehört, in keinem Tool.

Genau dafür ist eine KI-Nutzungsrichtlinie da: eine geprüfte Antwort zur Voreinstellung zu machen, damit der sichere Weg der einfache ist und niemand raten muss.

Unsere Sicht

„Trainiert es mit meinem Code“ ist die richtige Frage, aber die Antwort liegt nie in der Marke, sondern im Plan, in den Einstellungen und im Vertrag. Der Markt ist reifer geworden: Die Business- und Enterprise-Tarife der großen Tools trainieren in der Regel nicht mit Ihren Inhalten und bieten echte Kontrolle über die Datenspeicherung. Was an Risiko bleibt, kommt aus inoffiziell genutzten Gratis-Tarifen, aus ungeprüften Voreinstellungen und aus sensiblen Daten, die gesendet wurden, obwohl es nie nötig war.

Lassen Sie sich die Bedingungen für genau Ihren Tarif schriftlich bestätigen, setzen Sie die Kontrollen, senden Sie so wenig wie möglich und schreiben Sie das Ergebnis in die Richtlinie. Wenn Sie das tun, ist die Frage keine Sorge mehr, sondern eine geklärte Tatsache. Und genau dort sollte eine Sicherheitsfrage am Ende stehen.

Quellen

OWASP, OWASP Top 10 for Large Language Model Applications, zu Datenabfluss und Offenlegung sensibler Informationen, abgerufen am 2026-06-10
Europäischer Datenschutzausschuss, Leitlinien zu Auftragsverarbeitern und internationalen Datenübermittlungen, abgerufen am 2026-06-10
NIST, AI Risk Management Framework, zur Daten-Governance für KI-Systeme, abgerufen am 2026-06-10

Häufige Fragen

Trainieren KI-Coding-Tools mit unserem Quellcode?: Das hängt von der Tarifstufe, den Kontoeinstellungen und dem Vertrag ab — nicht vom Ruf des Anbieters. Die meisten großen Business- und Enterprise-Tarife erklären ausdrücklich, dass sie Code und Prompts nicht zum Modelltraining verwenden, viele bieten sogar Optionen ganz ohne Datenspeicherung an. Beim Gratis-Tarif desselben Produkts steht oft das Gegenteil, und die Voreinstellungen sind nicht automatisch die sichere Wahl.
Was ist der Unterschied zwischen Modelltraining, Datenspeicherung und menschlicher Prüfung bei KI-Tools?: Das sind drei verschiedene Risikofelder. Modelltraining fragt, ob Ihr Code in die Ausgaben einfließt, die anderen Kunden angezeigt werden. Speicherung fragt, wie lange Prompts und Antworten wo aufbewahrt werden. Menschliche Prüfung fragt, ob Mitarbeitende des Anbieters Ihre Prompts mitlesen können — ein grundlegend anderes Risiko als ein Modell. Wenn ein Anbieter sagt "wir trainieren nicht mit Ihren Daten", beantwortet das nur den ersten Punkt; alle drei sollten Sie sich schriftlich bestätigen lassen.
Wie prüfen wir verbindlich, ob ein KI-Coding-Tool unsere Daten zum Training nutzt?: Lesen Sie die Regeln zum Datenumgang für genau Ihren Tarif — nicht die Marketingseite — also Nutzungsbedingungen, AVV und Trust-Dokumentation. Fragen Sie den Anbieter schriftlich nach Trainingsnutzung, Speicherdauer, menschlicher Prüfung und einem Modus ohne Datenspeicherung. Prüfen Sie anschließend, ob der organisationsweite Schalter für Training und Telemetrie korrekt gesetzt ist und Entwickler ihn nicht unbemerkt umstellen können. Verlassen können Sie sich im Ernstfall nur auf eine vertragliche Zusage — ein Schalter kann sich mit jedem Produkt-Update ändern.
Welche Daten gehören unter keinen Umständen in einen Prompt, egal welche Richtlinie der Anbieter hat?: Tokens, Zugangsdaten, Kundendaten und Produktionsdaten haben in keinem KI-Coding-Tool etwas zu suchen, unabhängig von der Speicherrichtlinie. Setzen Sie das mit Pre-Commit-Hooks und Tools zur Prompt-Bereinigung durch, nicht mit Disziplin. Wo ein Tool Ihr Repository indexiert, schließen Sie über die Ignore-Konfiguration Verzeichnisse mit Secrets, Infrastruktur und sensibler Geschäftslogik gezielt aus.