Wenn KI-Governance an der Wirklichkeit vorbeigeht
Warum Steuerberater und Wirtschaftsprüfer eine andere KI-Diskussion brauchen – und welche Anwendungsrisiken die berufliche Fortbildung systematisch übersieht
Blog abonnieren
Verpassen Sie nichts mehr. Jetzt auf dem Laufenden bleiben und Newsletter abonnieren.
Einfach E-Mail-Adresse eintragen.
Subscribe
Was in Kanzlei N. passierte
Kanzlei N. ist eine norddeutsche Steuerberatungssozietät mit rund 30 Mitarbeitenden und drei Partnern. Die Mandantenbasis spannt sich vom inhabergeführten Mittelstand über Holdingstrukturen bis hin zu zwei mittelgroßen Reedereien. Anfang 2025 entschied sich die Sozietät, Microsoft 365 Copilot kanzleiweit auszurollen – vorausschauend, mit Schulungsplan, mit dokumentierter Tool-Auswahl, mit einer schriftlichen KI-Richtlinie. Die Geschäftsleitung war zufrieden: Man hatte die neue Welt sauber eingeführt.
Im Herbst 2025 fiel einer Sozia bei der Durchsicht einer Mandantenakte etwas auf, das in keiner Schulung Thema gewesen war. Eine erfahrene Mitarbeiterin hatte zur Vorbereitung einer Betriebsprüfung ein Drittanbieter-Plugin in Word verwendet, das geöffnete Dokumente automatisch zusammenfasst – über eine Programmierschnittstelle zu einem US-amerikanischen Anbieter, der nicht auf der freigegebenen Tool-Liste stand. Die Mitarbeiterin hatte das Plugin im April installiert, weil die DATEV-eigene KI für ihren Anwendungsfall noch nicht ausgereift schien. Der externe IT-Dienstleister hatte die Installation passieren lassen.
Die anschließende kanzleiinterne Tool-Inventur war ernüchternd. Dreiundzwanzig produktiv genutzte KI-Werkzeuge wurden identifiziert: Browser-Plugins, mobile Apps, Web-Dienste, in Add-ons eingebettete Funktionen, einige dauerhafte ChatGPT-Sitzungen auf Privatgeräten. Vier davon hatten eine Auftragsverarbeitungsvereinbarung. Zwei eine Verschwiegenheitsvereinbarung nach § 62a StBerG. Keines der Modelle hinter diesen Tools war das eigentliche Problem. Auch keine Halluzination, kein Bias, keine Modelldrift. Das eigentliche Problem lag eine Schicht darüber.
Die Bruchlinie
Genau hier verläuft die Bruchlinie, die in der berufsständischen KI-Diskussion zu selten benannt wird: zwischen Modell-Governance und Anwendungs-Governance.
Modell-Governance fragt, was im Modell selbst geschieht.
-
Wie wurde es trainiert?
-
Wie verzerrt sind seine Ausgaben?
-
Wie reagiert es auf seltene Fälle?
-
Welche Halluzinationen treten unter welchen Bedingungen auf?
-
Welche Reproduzierbarkeit lässt sich erwarten?
Es ist die Domäne der Modellbauer, der Aufsichtsökonomen, der Forschungseinrichtungen – und der Zertifizierungskurse, die heute den Markt für KI-Fortbildung beherrschen.
Anwendungs-Governance fragt etwas grundlegend anderes.
-
Wer darf welches Tool mit welchen Daten füttern?
-
Welche Vertragsschicht regelt, was der Anbieter mit den eingegebenen Daten tun darf – die datenschutzrechtliche Auftragsverarbeitung oder die strafrechtlich tragfähige Geheimhaltungsvereinbarung?
-
Welche Komponenten greifen auf welche Daten zu: Browser-Plugins, Connectors, Agenten, Subprozessoren des Anbieters?
-
Wie lange werden Embeddings, Logs und Prompt-Historien aufbewahrt, in welcher Region, durch wen einsehbar?
-
Wie wird verhindert, dass ein automatisierter Agent das ihm zugedachte Mandat überschreitet – etwa eine Mail im Namen des Berufsträgers absendet?
-
Wie wird die tatsächliche Nutzung – nicht die offizielle – sichtbar gemacht?
Für Kanzlei N. war die zweite Frage berufs- und haftungsrechtlich deutlich relevanter; die erste dspielte im konkreten Fall eine eher nachgelagerte Rolle. Das verwendete Modell könnte zu 99,9 Prozent akkurat arbeiten und dennoch könnte die Verschwiegenheitspflicht verletzt sein, sobald ein nicht anonymisiertes Mandatsdokument über ein nicht freigegebenes Plugin verarbeitet wird.
Umgekehrt könnte das Modell vergleichsweise schwach sein, ohne dass davon ein berufsrechtliches Risiko ausginge – vorausgesetzt, die Anwendungsschicht ist sauber geführt. Diese Asymmetrie ist die zentrale Erkenntnis.
Die Bruchlinie lässt sich auch anders fassen: Modell-Governance ist das, was Anbieter, Forschung und Aufsichtsbehörden untereinander aushandeln; Anwendungs-Governance ist das, was eine Berufsgesellschaft im eigenen Haus organisieren muss.
-
Modell-Governance ist abstrakt, transferierbar, lehrbar – sie taugt für Zertifikate.
-
Anwendungs-Governance ist organisationsspezifisch, vertraglich, prozessual – sie taugt für Audits.
Wenn ein Mandantenkonflikt entsteht oder eine Datenschutzaufsicht prüft, wird nicht nach dem Trainingsverfahren des Modells gefragt, sondern nach der schriftlichen Richtlinie der Kanzlei, der Vertragsschicht mit dem Anbieter und der Dokumentation der tatsächlichen Nutzung. Genau diese Asymmetrie zwischen dem, was gelehrt wird, und dem, was im Ernstfall geprüft wird, erzeugt bei den Verantwortlichen das Gefühl, einer Aufgabe ausgeliefert zu sein, die nie sauber beschrieben wurde.
Gleichwohl hat sich in den vergangenen Jahren ein Markt für Fortbildung herausgebildet, der nahezu ausschließlich auf der Modellseite operiert. Schulungen zu Bias, Halluzinationen, Trainingsdatenethik und Modellauswahl sind reichlich vorhanden.
Substanzielle Hilfestellung zu Vendor-Verträgen, Plugin-Inventur, Agentenrechten, Embedding-Aufbewahrungsfristen oder Schatten-KI ist rar. Wer in einer Kanzlei oder Prüfungspraxis die KI-Verantwortung übernimmt, wird also für ein Problem ausgebildet, das er in der Praxis nicht hat, und steht ohne Material vor dem Problem, mit dem er oder sie tatsächlich konfrontiert wird.
Worauf der Gesetzgeber tatsächlich abstellt
Es genügen drei regulatorische Bezugspunkte, um den Anwendungsschwerpunkt zu erkennen.
-
Erstens verlangt die EU-Verordnung über künstliche Intelligenz in Art. 4 seit dem 2. Februar 2025 von jedem Betreiber, das eigene Personal mit ausreichender KI-Kompetenz auszustatten – eine Pflicht, die nicht im Modell, sondern in der Organisation greift.
-
Zweitens normiert das Berufsrecht in § 57 StBerG die Verschwiegenheit der Steuerberater und in § 62a StBerG den Sonderfall der Einbindung externer Dienstleister; strafrechtlich flankiert § 203 Abs. 4 StGB diese Vertraulichkeit. Für den prüfenden Berufsstand gilt parallel § 43 WPO. Auch diese Pflichten sind Anwendungsfragen: Sie betreffen den Datenfluss, die Vertragslage und die Personalbefähigung – nicht die Modellmathematik.
-
Drittens hat die Bundessteuerberaterkammer mit ihrem FAQ-Katalog "KI im steuerberatenden Berufsstand" vom 11. Februar 2026 erstmals berufsständisch ausgesprochen, was in der Praxis fällig ist: ein KI-Verzeichnis, eine schriftliche KI-Richtlinie, eine differenzierte Vertragsprüfung und nachweisbare Schulung.
Wer diese drei Bezüge nüchtern liest, erkennt: Der Gesetzgeber und die Berufsorganisation interessieren sich für die Anwendungs-Governance.
Die Modellsicht ist demgegenüber häufig nachrangig – nicht unwichtig, aber oft nicht das, was berufsrechtlich primär verlangt wird.
Was tragfähige Praxis bedeutet – entlang der Bruchlinie
Eine tragfähige Praxis ordnet ihre Arbeit fünf Dimensionen zu, die alle auf der Anwendungsseite liegen. In jeder Dimension zeigt sich, dass die Modellsicht dazu wenig beiträgt und die Anwendungssicht das eigentliche Risikomanagement leistet.
Kanzlei N. hat zwischen Tool-Inventur und konsolidierter Vertragsstruktur rund sechs Monate verbracht – ein Aufwand, der in keiner Modellethik-Schulung antizipiert worden wäre, in der berufsständischen Wirklichkeit aber unvermeidlich war.
-
Die erste Dimension ist das KI-Inventar. Sie klingt banal, ist aber der eigentliche Hebel. Modell-Governance hat zu dieser Frage nichts zu sagen, weil sie das einzelne Modell isoliert betrachtet. Anwendungs-Governance dagegen beginnt mit der Bestandserhebung. Erst wenn die Kanzlei weiß, welche Tools tatsächlich im Einsatz sind – nicht nur die offiziell ausgerollten, sondern auch die Browser-Plugins, die mobilen Apps, die persönlichen Konten – kann sie steuern. Kanzlei N. hatte eine offizielle Liste mit neun Tools – Tatsächlich genutzt wurden dreiundzwanzig. Diese Lücke ist nach unserer Beratungserfahrung nicht die Ausnahme; sie ist die Regel.
-
Die zweite Dimension sind die Vertragsschichten. Die Modellperspektive interessiert sich kaum dafür, welcher Vertrag dem Tool zugrunde liegt; sie betrachtet die Verarbeitung als technische Operation. Die Anwendungsperspektive macht daraus die Kernfrage. Eine Auftragsverarbeitungsvereinbarung nach Art. 28 DSGVO ist datenschutzrechtlich erforderlich, berufsrechtlich aber nicht ausreichend – denn das Berufsgeheimnis steht strafrechtlich nach § 203 StGB unter eigenem Schutz, der eine zusätzliche Verschwiegenheitsvereinbarung nach § 62a StBerG verlangt. Diese Differenzierung wird in Modellschulungen praktisch nie vermittelt; im Schadensfall kann sie zur Haftungsfrage werden.
-
Die dritte Dimension umfasst Berechtigungen und Datenflüsse. Wer darf welches Tool mit welchen Datenkategorien nutzen? Welche Mandanten haben einer KI-gestützten Bearbeitung zugestimmt, welche nicht? Was geschieht mit Embeddings, also den vektorisierten Repräsentationen hochgeladener Dokumente, die der Anbieter typischerweise speichert? In welcher Region liegen sie, wer hat im Anbieterunternehmen Zugriff, wie lange werden sie aufbewahrt, wie werden sie bei Mandatsende gelöscht?
-
Diese Fragen beziehen sich auf technische Details – und sind genau deshalb in Modellethik-Schulungen meist abwesend, in der Praxis aber unausweichlich.
-
Die vierte Dimension betrifft Agenten- und Pluginrechte. Sobald eine KI-Anwendung nicht nur Text generiert, sondern auch handelt – eine Mail schreibt, einen Kalendereintrag setzt, einen Buchungsvorschlag erzeugt –, wird die Frage nach den Befugnissen zentral. Ein autonomer Agent, der Zugriff auf das gesamte Mailpostfach einer Mandats-Bearbeitenden hat, kann mit einer einzigen manipulierten Anfrage – einer sogenannten Prompt Injection – zu einer Schwachstelle werden, die klassische Modelltest nicht erkennen, weil das Modell selbst fehlerfrei reagiert. Der Fehler liegt nicht im Modell, sondern in der zu großzügig konfigurierten Anwendungsschicht. Welche Aktionen erlaubt, welche genehmigungspflichtig, welche unmöglich sind, entscheidet sich hier – nicht im Trainingsverfahren.
-
Die fünfte Dimension ist Aufsicht, Vorfallsmanagement und Eskalation. Die menschliche Aufsicht, von der die KI-Verordnung spricht, darf nicht der gelegentliche Blick auf ein Dashboard sein. Sie verlangt klare Verantwortlichkeiten: Wer ist Eigentümer welches Tools, wer ist freigabeberechtigt, wer ist im Vorfallsfall zuständig? Wie wird verdächtiges Verhalten gemeldet, dokumentiert, aufgearbeitet? Welche Frist gilt zur Information eines betroffenen Mandanten?
Solche Strukturen entstehen nicht im Modell. Sie entstehen in der Organisation – und sie sind das, was im Ernstfall die Differenz zwischen einer beherrschten Lage und einer Haftungseskalation ausmacht.
In allen fünf Dimensionen ist die Modellsicht hilfreich, aber nachgeordnet. Die operative Leitfrage einer Steuerberatungskanzlei oder einer Wirtschaftsprüfungspraxis lautet nicht "Wie gut ist unser Modell?", sondern "Wie sauber führen wir das, was um das Modell herum geschieht?".
Was zu tun bleibt
Kanzlei N. hat nach ihrer Tool-Inventur kein neues Modell ausgesucht. Sie hat ihre KI-Richtlinie umgeschrieben, ihre Vertragsstruktur mit den Anbietern geöffnet und differenziert nachverhandelt, ihre Schulungen vom Modellverständnis auf den praktischen Werkzeuggebrauch verschoben und ein KI-Verzeichnis als laufendes Steuerungsinstrument eingeführt. Die Diskussion über Bias und Halluzination ist dadurch nicht verschwunden – sie ist an die Stelle gerückt, die ihr zukommt: hilfreich, aber in der Praxis oft nicht zentral.
Solange der Berufsstand seine Fortbildung, seine Zertifizierungen und seine öffentliche Diskussion auf die Modellseite konzentriert, werden die fähigen Kolleginnen und Kollegen, die in den Kanzleien und Prüfungsgesellschaften für KI verantwortlich gemacht werden, weiter das Gefühl haben, einer Aufgabe nicht gewachsen zu sein, die ihnen nie sauber beschrieben wurde. Die Bruchlinie zu benennen ist deshalb mehr als eine begriffliche Klärung. Sie ist die Voraussetzung dafür, dass KI-Governance in der Berufspraxis ankommt – dort, wo Mandantenvertrauen, Berufsgeheimnis und Haftung tatsächlich ausgehandelt werden.
Quellen und Rechtsverweise
Verordnung (EU) 2024/1689 des Europäischen Parlaments und des Rates vom 13. Juni 2024 zur Festlegung harmonisierter Vorschriften für künstliche Intelligenz (KI-Verordnung / AI Act), insbesondere Art. 4 (KI-Kompetenzpflicht, anwendbar seit 2. Februar 2025).
Steuerberatungsgesetz (StBerG), insbesondere § 57 (Allgemeine Berufspflichten, Verschwiegenheit) und § 62a (Mitwirkung von Personen und Stellen außerhalb der Berufsausübung); Wirtschaftsprüferordnung (WPO), insbesondere § 43 (Allgemeine Berufspflichten); § 203 Strafgesetzbuch (StGB), insbesondere Abs. 4 (strafrechtliche Geheimhaltung bei Einbindung mitwirkender Personen).
Verordnung (EU) 2016/679 (Datenschutz-Grundverordnung – DSGVO), insbesondere Art. 28 (Auftragsverarbeiter).
Bundessteuerberaterkammer (BStBK), FAQ-Katalog "KI im steuerberatenden Berufsstand", Stand 27. Januar 2026, veröffentlicht am 11. Februar 2026; abrufbar über www.bstbk.de.
Institut der Wirtschaftsprüfer (IDW), Knowledge Paper "EU-Verordnung über künstliche Intelligenz", aktualisierte Fassung 2024, sowie IDW Prüfungsstandard 861 "Prüfung von KI-Systemen" (Stand März 2023) – für den prüfenden Berufsstand ergänzend einschlägig.