Erstgespräch buchen
Use Case — Anwendungsbereich

KI für Dokumentenprozesse

Verträge, Belege und Akten automatisch erfassen, klassifizieren und im richtigen System ablegen. Drei Setup-Stufen vom Hosted-OCR mit DMS-Anbindung bis zur Full-Self-Hosted-Variante mit lokalem Modell — mit ehrlicher Einordnung von Berufsgeheimnis, GoBD und der Konfidenz-Schwelle, ab der ein Mensch hinschaut.

Kanzleien, Steuerberater, Verwaltungen und mittelständische Betriebe verbringen einen großen Teil ihrer Zeit mit Dokumenten: Verträge prüfen, Belege zuordnen, Fristen überwachen, Akten ablegen. Das ist Kernarbeit, die hochqualifizierte Menschen mit Copy-Paste und Ordner-Strukturen verbringen — nicht weil sie nicht besser könnten, sondern weil die Werkzeuge oft beim PDF-Anhang aufhören.

kann Dokumente lesen, strukturierte Felder extrahieren und auffällige Klauseln markieren — als Vorschlag, der von einem Sachbearbeiter geprüft und freigegeben wird. In regulierten Branchen ist dieser Freigabe-Schritt nicht eine Komfort-Frage, sondern Berufsrecht.

Voraussetzung in allen Stufen: ein klares Datenmodell pro Dokumenttyp und eine kalibrierte Konfidenz-Schwelle, ab der ein Mensch hinschauen muss. Wer das nicht definiert, automatisiert nicht Sachbearbeitung, sondern Fehler — leise und über Monate.

Drei Setup-Stufen

Welche Stufe passt, hängt von drei Faktoren ab: Sensitivität der Dokumente, Volumen und Fachsystem-Landschaft.

Stufe 1

Hosted OCR mit DMS-Anbindung

Tool-Mix

  • Hosted OCR und Beleg-Klassifikation (Klippa, Rossum, Konfuzio, Hypatos oder die OCR-Schnittstelle des DMS selbst)
  • Bestehendes DMS oder Aktensystem (DATEV DMS, RA-MICRO, advoware, ELO, d.velop, M-Files) als Zielsystem
  • Workflow-Tool (Make, Zapier, n8n.cloud) für Eingang (Mail, Scan, Upload) und Übergabe ins DMS
  • Frontier-LLM-API für freie Extraktion (Vertragsklauseln, Fristen) ergänzend zur strukturierten OCR
  • Freigabe-Prozess: alle automatischen Vorschläge landen erst zur Sichtprüfung in einer Eingangs-Mappe

Eignung

mit moderatem Beleg- und Akten-Volumen ohne strengere Berufsgeheimnis-Anforderungen. Steuerberatungen mit Standard-Mandat, Verwaltungen außerhalb sensibler Bereiche, Handwerksbetriebe mit Vertragsverwaltung.

Aufwand & Kosten

Setup 5–10 Tage. Laufende Kosten ca. 100–500 € / Monat (OCR-Dienst nach Beleg-Volumen, LLM-API, Workflow-Hosting).

Tradeoff

Belege und Dokumenten-Inhalte laufen durch SaaS-Dienste — meist mit , oft mit EU-Hosting, aber nicht alle Anbieter halten alle Daten ausschließlich in der EU. Für Standard-Belege vertretbar, für anwaltliche Mandate oder Patientenakten die falsche Stufe.

Stufe 2

Self-Hosted Pipeline mit Frontier-LLM

Tool-Mix

  • n8n oder vergleichbare Workflow-Engine auf eigenem Server für Eingang, Klassifikation und Übergabe
  • OCR weiterhin als Dienst oder als Open-Source-Variante (Tesseract, PaddleOCR) je nach Belegqualität
  • Frontier-LLM (Claude, GPT, Gemini) für freie Klausel-Analyse, Zusammenfassungen und Fristen-Extraktion — mit AVV, API-Calls verlassen die EU
  • Eigene Postgres-Datenbank für Audit-Trail, Beleg-Status, Zwischenstände und nachvollziehbare Historie
  • Anbindung an DATEV, RA-MICRO, advoware oder vergleichbares Fachsystem per zertifizierter Schnittstelle, REST/SOAP oder Datei-Export
  • Konfidenz-Schwellen: Bei unsicheren Treffern wird der Beleg automatisch zur manuellen Sichtprüfung gehoben — keine stille Auto-Buchung

Eignung

Steuerberatungen, Hausverwaltungen und Mittelständler mit mehreren parallelen Workflows, Anspruch an Datenhoheit über Eingang und Logs, und einer Person mit Workflow-Verantwortung.

Aufwand & Kosten

Setup 12–25 Tage. Laufende Kosten ca. 120–400 € / Monat (Server, ggf. OCR-Dienst, LLM-API).

Tradeoff

entlastet nicht von Pflege: Plattform-APIs, OCR-Genauigkeit, Klausel-Vorlagen veralten. Wer die Konfidenz-Schwellen nicht regelmäßig kalibriert, hat irgendwann eine Pipeline, die selbstbewusst Falsches übergibt.

Stufe 3

Full-Self-Hosted mit lokalem OCR und Modell

Tool-Mix

  • Stufe 2 in vollem Umfang, alle KI- und OCR-Komponenten lokal
  • Lokales Sprachmodell (Llama 3, Qwen 2.5, Mistral) auf GPU-Server für Klausel-Analyse und Klassifikation — kein Dokumenten-Inhalt verlässt das Haus
  • Open-Source-OCR (PaddleOCR, EasyOCR, Tesseract) lokal, ggf. mit feiner trainierten Modellen für branchen- oder mandantenspezifische Formulare
  • Wissensgraph oder strukturierter Index zur Erfassung von Mandant-, Akten-, Vertrags- und Vorgangs-Relationen — wichtig bei Kanzlei- oder Mehr-Mandats-Strukturen
  • Vollständiger Audit-Trail: jeder OCR-Treffer, jede KI-Aussage, jede Freigabe ist nachvollziehbar dokumentiert — für GoBD, Berufsgeheimnis und interne Compliance

Eignung

Rechtsanwälte, Steuerberater mit sensiblen Mandaten, Gesundheitsdienstleister, öffentliche Hand — Bereiche, in denen Berufsgeheimnis oder Sozialdatenschutz Cloud-Dienste praktisch ausschließen.

Aufwand & Kosten

Setup 25–45 Tage, plus Hardware oder ab 200 € / Monat. Lokale Modelle 2026 für strukturierte Klausel-Erfassung sehr gut, bei freier Analyse spürbar hinter Frontier.

Tradeoff

Höchste Datenkontrolle, höchster Aufwand. Bei lokalen Modellen ist die Eskalationsschwelle zur manuellen Prüfung niedriger anzusetzen — eine Pipeline ohne klaren Pflegeverantwortlichen ist in dieser Stufe besonders fehleranfällig.

Was Ihr Team verstehen sollte

Dokumenten-Automatisierung trägt nur, wenn die fachliche Verantwortung im Haus bleibt. Sechs Kompetenzbereiche, die in jedem Setup verankert sein müssen:

Dokumenttypen und Datenmodell

Welche Dokumenttypen verarbeitet werden (Rechnung, Vertrag, Bescheid, Korrespondenz, Akte) und welche Felder pro Typ extrahiert werden sollen. Ohne saubere Definition wird zu strukturiertem Rauschen.

OCR-Grundlagen

Wo zuverlässig ist (Drucktext, klare Belege) und wo nicht (Handschrift, schlechte Scans, mehrspaltige Layouts). Wann eigene Modelle Sinn ergeben und wann ein hochwertiger Cloud-Dienst die ehrlichere Wahl ist.

Konfidenz und Schwellen

Wie KI-Konfidenz gelesen wird — und warum jeder Beleg mit niedriger Konfidenz zur manuellen Sichtprüfung gehört. Wie Schwellen über Zeit kalibriert werden.

Vertrags- und Klausel-Analyse

Welche Klauseln Standard sind, welche ungewöhnlich, welche fehlen sollten und nicht vorhanden sind. Was ein Modell hier zuverlässig leistet (Erstsichtung, Auffälligkeiten) und was nicht (rechtliche Bewertung).

GoBD, Berufsgeheimnis, DSGVO

Was an Unveränderbarkeit, Aufbewahrungsfristen und Nachvollziehbarkeit verlangt wird — und wo automatisierte Workflows das einhalten oder gefährden. Welche Datenkategorien Cloud-Verarbeitung praktisch ausschließen.

Integration in DMS und Fachsystem

Wie Belege, Akten und Vorgänge sauber im Zielsystem landen — mit Versionierung, Audit-Trail und Verknüpfung zum Mandanten oder Vorgang. Welche Schnittstellen wirklich tragen und welche nur auf dem Papier existieren.

Was automatisiert wird

Acht typische Schritte, die im laufenden Betrieb von der Pipeline übernommen werden — in unterschiedlicher Tiefe je nach Stufe:

Eingangsstrecke

Dokumente aus Mail, Scanner, Upload-Portal oder DMS-Eingang werden erfasst, dedupliziert und in den passenden geleitet — eine zentrale Eingangsadresse statt fünf Posteingänge.

OCR und strukturierte Extraktion

Belegtypisch werden Felder extrahiert (Betrag, Datum, USt-ID, Mandantennummer, Aktenzeichen, Fristen) und gegen Stammdaten geprüft.

Klassifikation

Rechnung, Vertrag, Mahnung, Bescheid, Korrespondenz — automatische Zuordnung mit Konfidenzangabe und Fallback in eine Sichtprüfungs-Mappe.

Klausel- und Fristen-Erkennung

KI-Erstsichtung von Verträgen: Kündigungsfristen, Haftungs- und Wettbewerbsklauseln, ungewöhnliche Vereinbarungen — markiert, nicht entschieden.

Zuordnung zum Mandanten oder Vorgang

Belege werden anhand von USt-ID, Aktenzeichen oder Stammdaten dem richtigen Mandanten und Vorgang zugeordnet — Dubletten und Konflikte werden markiert statt überschrieben.

Übergabe ins Fachsystem

Vorschlag mit allen Extraktionen ans DATEV-, RA-MICRO- oder advoware-Pendant, mit Verweis aufs Original-Dokument. Freigabe bleibt beim Sachbearbeiter.

Fristen-Erinnerung

Erkannte Fristen wandern in Kalender oder Wiedervorlage — mit Vertrags- oder Akten-Kontext, nicht als anonymer Eintrag.

Audit-Trail und Wochenreport

Welche Dokumente verarbeitet, welche zur Sichtprüfung gehoben, wo die Pipeline unsicher war — narrative Auswertung statt Status-Zahl ohne Kontext.

Was bewusst MANUELL bleibt

In regulierten Bereichen ist Auto-Buchung nicht Effizienz, sondern Risiko. Diese sechs Punkte gehören in menschliche Hände:

Rechtliche und fachliche Bewertung

sichtet, der Mensch bewertet. Was eine ungewöhnliche Klausel bedeutet, wie ein Bescheid einzuordnen ist, welche Frist welche Rechtsfolge hat — das gehört in fachliche Hände, nicht in einen .

Mandantengeheimnis und Berufsrecht

Welche Dokumente überhaupt durch welche Pipeline fließen dürfen — Berufsrecht, Mandantenvereinbarungen und Datenschutz setzen Grenzen, die nicht der zieht, sondern die Inhaberschaft.

Freigabe vor Buchung oder Versand

Buchungs-Vorschläge, ausgehende Schreiben, Bescheid-Antworten — automatisch vorbereitet, manuell freigegeben. Stille Auto-Buchungen sind in regulierten Bereichen keine Effizienz, sondern Risiko.

Unklare und widersprüchliche Belege

Wenn oder unsicher sind, gehört der Beleg in menschliche Sichtprüfung. Die Konfidenz-Schwelle ist eine Geschäftsentscheidung, kein technischer Parameter.

Stammdaten- und Mandanten-Pflege

Falsche Stammdaten führen zu falscher Zuordnung in jedem nachfolgenden Beleg. Ein klarer Stammdaten-Verantwortlicher ist Pflicht, kein Workflow-Detail.

Stichproben und Qualitätssicherung

Wöchentlich 10–20 Vorgänge gegen das Original prüfen: stimmen , Klassifikation, Zuordnung. Ohne diese Disziplin verliert jede Pipeline still über Monate an Genauigkeit.

Wie der Aufbau läuft

Von der Dokumenten-Inventur bis zum vollen Selbstbetrieb in der Regel 10–18 Wochen, abhängig von Stufe, Dokumenttyp-Anzahl und Fachsystem-Integration:

1

Dokumenten-Inventur

Welche Dokumenttypen, welche Volumen, welche heutigen Engpä, welche Compliance-Anforderungen. Aufnahme im Gespräch, nicht aus dem Bauch.

2

Datenmodell pro Dokumenttyp

Welche Felder werden extrahiert, welche sind Pflicht, welche Plausibilitäten gelten. Diese Definition deckelt langfristig die Qualität der Pipeline.

3

Setup-Stufe wählen

Hosted, Self-Hosted-Frontier oder Full-Self-Hosted — abhängig von Sensitivität, Volumen, Fachsystem-Landschaft und Datenschutz-Anspruch. Begründete Empfehlung, Sie entscheiden.

4

Pipeline aufbauen

Eingang, , Klassifikation, Klausel-/Fristen-Erkennung, Zuordnung, Übergabe ins Fachsystem — mit klar definierten Konfidenz-Schwellen und Eskalation in eine Sichtprüfungs-Mappe.

5

Pilot mit definiertem Belegtyp

Start mit einem oder zwei klar abgegrenzten Dokumenttypen (z. B. Eingangsrechnungen, Standardverträge) — Erfolg messbar machen, bevor breiter ausgerollt wird.

6

Schulung & Hands-on-Übergabe

4–6-stündiger Workshop mit den Verantwortlichen: Konfidenz-Schwellen kalibrieren, Sichtprüfungs-Mappe abarbeiten, Audit-Trail lesen, Wochenreport interpretieren.

7

Begleiteter Pilot-Monat

Vier Wochen mit wöchentlicher Sparring-Session: echte Dokumente prüfen, Schwellen anpassen, Klausel-Vorlagen ergänzen, OCR-Probleme behandeln.

8

Selbstbetrieb mit Stichproben-Disziplin

Klare Verantwortlichkeiten für Stammdaten und Qualitätssicherung. Optional: vierteljährliche Auffrischer bei Recht- oder Tool-Veränderungen.

Aufwand und Investition hängen von der gewählten Stufe und der Anzahl der ersten Dokumenttypen ab — eine konkrete Einschätzung gibt es nach der Dokumenten-Inventur und im Rahmen der Preisübersicht.

Bereit für den nächsten Schritt?

Kostenloses Erstgespräch. Unverbindlich. In 30 Minuten wissen Sie, ob und wie KI Ihrem Unternehmen helfen kann.

Erstgespräch buchenBAFA-Förderung