Features Preise FAQ
Branchen
Behörden Unternehmen Bildung Gesundheit Finanzen Recht
Ressourcen
Ratgeber Glossar
Login Kostenlos starten
Features Preise FAQ
Branchen
Behörden Unternehmen Bildung Gesundheit Finanzen Recht
Ressourcen
Ratgeber Glossar
Login Kostenlos starten
Glossar-Eintrag

OCR – Texterkennung für gescannte PDFs

OCR

OCR (Optical Character Recognition) ist eine Technologie zur automatischen Texterkennung in Bildern und gescannten Dokumenten. Für die PDF-Barrierefreiheit ist OCR unverzichtbar: Erst wenn ein gescanntes PDF durch OCR in echten Text umgewandelt wurde, können Screenreader den Inhalt vorlesen und das Dokument durchsucht oder getaggt werden.

Was ist OCR?

OCR (Optische Zeichenerkennung) analysiert Bilder von Text und wandelt sie in editierbaren, maschinenlesbaren Text um. Die Technologie existiert seit den 1970ern, wurde aber durch KI und Deep Learning in den letzten Jahren drastisch verbessert.

Wie funktioniert OCR?

  1. Bildaufnahme: Scanner oder Kamera erfasst das Dokument
  2. Vorverarbeitung: Kontrastanpassung, Begradigung, Rauschentfernung
  3. Segmentierung: Erkennung von Textbereichen, Zeilen, Wörtern
  4. Zeichenerkennung: Jedes Zeichen wird mit Mustern verglichen
  5. Nachbearbeitung: Wörterbuchkorrektur, Kontextanalyse
  6. Ausgabe: Text als durchsuchbare Ebene oder bearbeitbar

OCR-Qualität hängt ab von:

Faktor Auswirkung Optimierung
Scanqualität Entscheidend Min. 300 DPI, sauber
Schriftart Serifenlose besser Standard-Fonts
Kontrast Schwarz auf Weiß ideal Guter Kontrast
Sprache Deutsche Umlaute beachten Richtige Sprache wählen
Layout Einfach > Komplex Mehrspaltiges ist schwieriger
Handschrift Sehr schwierig Spezialisierte KI nötig

### OCR-Software und -Dienste:

Tool Typ Besonderheiten
Adobe Acrobat Pro Desktop Integriert, gute Qualität
ABBYY FineReader Desktop Marktführer, sehr präzise
Tesseract Open Source Google-entwickelt, kostenlos
Google Cloud Vision Cloud-API KI-basiert, sehr genau
Microsoft Azure OCR Cloud-API In Office integriert
Amazon Textract Cloud-API Formularerkennung

## Warum ist OCR wichtig für Barrierefreiheit?

Ohne OCR ist ein gescanntes PDF vollständig unzugänglich:

Das Problem:
Ein gescanntes PDF ist technisch nur ein Bild. Es enthält keinen Text, den ein Screenreader vorlesen könnte. Der Nutzer hört nur: „Grafik“ – sonst nichts.

Die Lösung:
OCR erkennt den Text und legt ihn als unsichtbare Ebene über das Bild. So entsteht ein „Sandwich-PDF“:

  • Sichtbar: Das Original-Bild
  • Unsichtbar: Der erkannte Text (für Suche, Kopieren, Screenreader)

Für Barrierefreiheit bedeutet das:

  1. OCR macht Text für Screenreader zugänglich
  2. Das Dokument wird durchsuchbar (Strg+F)
  3. Text kann markiert und kopiert werden
  4. Aber: OCR allein reicht nicht! Danach muss getaggt werden

OCR + Tagging = Barrierefreiheit

Schritt Ergebnis
Nur Scan Kein Text, nicht barrierefrei
+ OCR ️ Text erkennbar, aber keine Struktur
+ Tagging Text mit Überschriften, Listen, etc.
+ Alt-Texte Vollständig PDF/UA-konform

## OCR in der Praxis

Beispiel 1: Gescannte Rechnung barrierefrei machen

Ausgangslage: 500 gescannte Rechnungen als Bild-PDFs

Workflow:

  1. OCR durchführen (Acrobat Pro → Werkzeuge → Scan & OCR)
  2. Sprache wählen (Deutsch) für bessere Erkennung
  3. Qualität prüfen – gescannte Tabellen problematisch?
  4. Automatisch taggen (Werkzeuge → Barrierefreiheit)
  5. Manuell korrigieren (Tabellen, Überschriften)
  6. PAC-Prüfung durchführen

Beispiel 2: OCR mit Adobe Acrobat Pro

Schritt-für-Schritt:

  1. PDF öffnen
  2. Werkzeuge → Scan & OCR → Texterkennung
  3. Sprache: „Deutsch“ wählen
  4. Ausgabe: „Durchsuchbares Bild“ oder „Bearbeitbarer Text“
  5. „Text erkennen“ klicken
  6. Warten (kann bei großen Dokumenten dauern)
  7. Prüfen: Text markieren – funktioniert?

Beispiel 3: Massenverarbeitung mit Tesseract

Für viele Dokumente oder Automatisierung:

„`bash

Tesseract OCR (Kommandozeile)

tesseract input.pdf output -l deu pdf

Mit Ghostscript für PDFs

gs -dNOPAUSE -sDEVICE=pdfwrite -o output.pdf input.pdf
tesseract output.pdf result -l deu pdf
„`

OCR-Qualität verbessern:

Problem Lösung
Text unscharf Höhere Auflösung (min. 300 DPI)
Zeichen falsch Andere Sprache versuchen
Tabellen kaputt Spezialisierte Software (ABBYY)
Handschrift KI-Dienste (Google Vision)
Alte Schriften Spezialisierte Modelle

## Verwandte Begriffe

Häufige Fragen zu OCR

1. Macht OCR mein PDF automatisch barrierefrei?

Nein. OCR ist nur der erste Schritt. Es macht Text erkennbar, aber das PDF hat danach keine Struktur (Tags). Für Barrierefreiheit müssen Sie: 1) OCR durchführen, 2) Tags hinzufügen, 3) Lesereihenfolge prüfen, 4) Alt-Texte ergänzen, 5) Mit PAC prüfen. OCR allein erfüllt keine PDF/UA-Anforderungen.

2. Wie genau ist moderne OCR?

Moderne KI-basierte OCR erreicht bei guten Scans 99%+ Genauigkeit für gedruckten Text. Bei schlechter Qualität, ungewöhnlichen Schriften oder Handschrift sinkt die Genauigkeit auf 80-95%. Immer eine Stichprobe manuell prüfen! Fehlerhafte OCR bedeutet falsche Informationen für Screenreader-Nutzer.

3. Kann OCR Tabellen erkennen?

Einfache Tabellen ja, komplexe mit Schwierigkeiten. Adobe Acrobat und ABBYY FineReader erkennen Tabellenstrukturen meist gut. Probleme: Verbundene Zellen, Linien ohne Rahmen, verschachtelte Tabellen. Für kritische Dokumente: Tabellen manuell prüfen und nachbessern. Spezial-Tools wie Amazon Textract sind auf Formulare optimiert.

4. Welche Auflösung braucht mein Scan für gutes OCR?

Minimum 300 DPI für Standardtext. Ideal: 400-600 DPI für kleine Schriften. Höher als 600 DPI bringt selten bessere Ergebnisse, aber größere Dateien. Wichtiger als hohe DPI: Guter Kontrast (schwarz auf weiß), saubere Vorlage, gerade ausgerichtet. Ein 300 DPI-Scan mit gutem Kontrast schlägt einen unscharfen 600 DPI-Scan.

5. Gibt es kostenlose OCR-Tools für PDF?

Ja. Tesseract (von Google) ist Open Source und sehr leistungsfähig, erfordert aber Kommandozeile. NAPS2 ist ein kostenloses Windows-Programm mit Tesseract-Integration. Online: NewOCR.com für einzelne Seiten. Google Docs: PDF hochladen, als Google-Dokument öffnen – integriertes OCR. Für Massenverarbeitung oder beste Qualität lohnt sich oft Adobe Acrobat Pro.


„OCR“ in bold white 3D text, scanner icon transforming into text/letters, before/after showing image vs recognized text, magnifying glass over document, AI brain icon suggesting smart recognition, blue and teal tech colors, document transformation visual, 1280×720 YouTube thumbnail style

Häufige Fragen zu OCR

Was ist OCR?

OCR (Optical Character Recognition) ist eine Technologie zur automatischen Texterkennung in gescannten Dokumenten oder Bildern. Sie wandelt Bild-Pixel in editierbaren und durchsuchbaren Text um.

Warum ist OCR für Barrierefreiheit wichtig?

Ohne OCR sind gescannte PDFs nur Bilder, die von Screen Readern nicht gelesen werden können. OCR extrahiert den Text und macht ihn für assistive Technologien zugänglich.

Wie genau ist OCR?

Moderne OCR erreicht bei guter Vorlagenqualität Erkennungsraten über 99%. Handschrift, schlechte Scans oder ungewöhnliche Schriftarten können die Genauigkeit reduzieren.

Reicht OCR für barrierefreie PDFs?

Nein, OCR ist nur der erste Schritt. Danach muss das Dokument noch mit Tags strukturiert, die Lesereihenfolge geprüft und Alternativtexte ergänzt werden.


Barrierefreie PDFs erstellen? Jetzt kostenlos starten →