OCR
OCR (Optical Character Recognition) ist eine Technologie zur automatischen Texterkennung in Bildern und gescannten Dokumenten. Für die PDF-Barrierefreiheit ist OCR unverzichtbar: Erst wenn ein gescanntes PDF durch OCR in echten Text umgewandelt wurde, können Screenreader den Inhalt vorlesen und das Dokument durchsucht oder getaggt werden.
Was ist OCR?
OCR (Optische Zeichenerkennung) analysiert Bilder von Text und wandelt sie in editierbaren, maschinenlesbaren Text um. Die Technologie existiert seit den 1970ern, wurde aber durch KI und Deep Learning in den letzten Jahren drastisch verbessert.
Wie funktioniert OCR?
- Bildaufnahme: Scanner oder Kamera erfasst das Dokument
- Vorverarbeitung: Kontrastanpassung, Begradigung, Rauschentfernung
- Segmentierung: Erkennung von Textbereichen, Zeilen, Wörtern
- Zeichenerkennung: Jedes Zeichen wird mit Mustern verglichen
- Nachbearbeitung: Wörterbuchkorrektur, Kontextanalyse
- Ausgabe: Text als durchsuchbare Ebene oder bearbeitbar
OCR-Qualität hängt ab von:
| Faktor | Auswirkung | Optimierung |
|---|---|---|
| Scanqualität | Entscheidend | Min. 300 DPI, sauber |
| Schriftart | Serifenlose besser | Standard-Fonts |
| Kontrast | Schwarz auf Weiß ideal | Guter Kontrast |
| Sprache | Deutsche Umlaute beachten | Richtige Sprache wählen |
| Layout | Einfach > Komplex | Mehrspaltiges ist schwieriger |
| Handschrift | Sehr schwierig | Spezialisierte KI nötig |
### OCR-Software und -Dienste:
| Tool | Typ | Besonderheiten |
|---|---|---|
| Adobe Acrobat Pro | Desktop | Integriert, gute Qualität |
| ABBYY FineReader | Desktop | Marktführer, sehr präzise |
| Tesseract | Open Source | Google-entwickelt, kostenlos |
| Google Cloud Vision | Cloud-API | KI-basiert, sehr genau |
| Microsoft Azure OCR | Cloud-API | In Office integriert |
| Amazon Textract | Cloud-API | Formularerkennung |
## Warum ist OCR wichtig für Barrierefreiheit?
Ohne OCR ist ein gescanntes PDF vollständig unzugänglich:
Das Problem:
Ein gescanntes PDF ist technisch nur ein Bild. Es enthält keinen Text, den ein Screenreader vorlesen könnte. Der Nutzer hört nur: „Grafik“ – sonst nichts.
Die Lösung:
OCR erkennt den Text und legt ihn als unsichtbare Ebene über das Bild. So entsteht ein „Sandwich-PDF“:
- Sichtbar: Das Original-Bild
- Unsichtbar: Der erkannte Text (für Suche, Kopieren, Screenreader)
Für Barrierefreiheit bedeutet das:
- OCR macht Text für Screenreader zugänglich
- Das Dokument wird durchsuchbar (Strg+F)
- Text kann markiert und kopiert werden
- Aber: OCR allein reicht nicht! Danach muss getaggt werden
OCR + Tagging = Barrierefreiheit
| Schritt | Ergebnis |
|---|---|
| Nur Scan | Kein Text, nicht barrierefrei |
| + OCR | ️ Text erkennbar, aber keine Struktur |
| + Tagging | Text mit Überschriften, Listen, etc. |
| + Alt-Texte | Vollständig PDF/UA-konform |
## OCR in der Praxis
Beispiel 1: Gescannte Rechnung barrierefrei machen
Ausgangslage: 500 gescannte Rechnungen als Bild-PDFs
Workflow:
- OCR durchführen (Acrobat Pro → Werkzeuge → Scan & OCR)
- Sprache wählen (Deutsch) für bessere Erkennung
- Qualität prüfen – gescannte Tabellen problematisch?
- Automatisch taggen (Werkzeuge → Barrierefreiheit)
- Manuell korrigieren (Tabellen, Überschriften)
- PAC-Prüfung durchführen
Beispiel 2: OCR mit Adobe Acrobat Pro
Schritt-für-Schritt:
- PDF öffnen
- Werkzeuge → Scan & OCR → Texterkennung
- Sprache: „Deutsch“ wählen
- Ausgabe: „Durchsuchbares Bild“ oder „Bearbeitbarer Text“
- „Text erkennen“ klicken
- Warten (kann bei großen Dokumenten dauern)
- Prüfen: Text markieren – funktioniert?
Beispiel 3: Massenverarbeitung mit Tesseract
Für viele Dokumente oder Automatisierung:
„`bash
Tesseract OCR (Kommandozeile)
tesseract input.pdf output -l deu pdf
Mit Ghostscript für PDFs
gs -dNOPAUSE -sDEVICE=pdfwrite -o output.pdf input.pdf
tesseract output.pdf result -l deu pdf
„`
OCR-Qualität verbessern:
| Problem | Lösung |
|---|---|
| Text unscharf | Höhere Auflösung (min. 300 DPI) |
| Zeichen falsch | Andere Sprache versuchen |
| Tabellen kaputt | Spezialisierte Software (ABBYY) |
| Handschrift | KI-Dienste (Google Vision) |
| Alte Schriften | Spezialisierte Modelle |
## Verwandte Begriffe
- Tagged PDF – Nächster Schritt nach OCR
- Screen Reader – Braucht OCR-Text zum Vorlesen
- PDF/UA – Standard, der mehr als OCR fordert
- Remediation – OCR ist Teil des Prozesses
- Alternativtext – Für Bilder, die kein OCR erkennt
- Tesseract – Open-Source OCR-Engine
Häufige Fragen zu OCR
1. Macht OCR mein PDF automatisch barrierefrei?
Nein. OCR ist nur der erste Schritt. Es macht Text erkennbar, aber das PDF hat danach keine Struktur (Tags). Für Barrierefreiheit müssen Sie: 1) OCR durchführen, 2) Tags hinzufügen, 3) Lesereihenfolge prüfen, 4) Alt-Texte ergänzen, 5) Mit PAC prüfen. OCR allein erfüllt keine PDF/UA-Anforderungen.
2. Wie genau ist moderne OCR?
Moderne KI-basierte OCR erreicht bei guten Scans 99%+ Genauigkeit für gedruckten Text. Bei schlechter Qualität, ungewöhnlichen Schriften oder Handschrift sinkt die Genauigkeit auf 80-95%. Immer eine Stichprobe manuell prüfen! Fehlerhafte OCR bedeutet falsche Informationen für Screenreader-Nutzer.
3. Kann OCR Tabellen erkennen?
Einfache Tabellen ja, komplexe mit Schwierigkeiten. Adobe Acrobat und ABBYY FineReader erkennen Tabellenstrukturen meist gut. Probleme: Verbundene Zellen, Linien ohne Rahmen, verschachtelte Tabellen. Für kritische Dokumente: Tabellen manuell prüfen und nachbessern. Spezial-Tools wie Amazon Textract sind auf Formulare optimiert.
4. Welche Auflösung braucht mein Scan für gutes OCR?
Minimum 300 DPI für Standardtext. Ideal: 400-600 DPI für kleine Schriften. Höher als 600 DPI bringt selten bessere Ergebnisse, aber größere Dateien. Wichtiger als hohe DPI: Guter Kontrast (schwarz auf weiß), saubere Vorlage, gerade ausgerichtet. Ein 300 DPI-Scan mit gutem Kontrast schlägt einen unscharfen 600 DPI-Scan.
5. Gibt es kostenlose OCR-Tools für PDF?
Ja. Tesseract (von Google) ist Open Source und sehr leistungsfähig, erfordert aber Kommandozeile. NAPS2 ist ein kostenloses Windows-Programm mit Tesseract-Integration. Online: NewOCR.com für einzelne Seiten. Google Docs: PDF hochladen, als Google-Dokument öffnen – integriertes OCR. Für Massenverarbeitung oder beste Qualität lohnt sich oft Adobe Acrobat Pro.
„OCR“ in bold white 3D text, scanner icon transforming into text/letters, before/after showing image vs recognized text, magnifying glass over document, AI brain icon suggesting smart recognition, blue and teal tech colors, document transformation visual, 1280×720 YouTube thumbnail style
Häufige Fragen zu OCR
Was ist OCR?
OCR (Optical Character Recognition) ist eine Technologie zur automatischen Texterkennung in gescannten Dokumenten oder Bildern. Sie wandelt Bild-Pixel in editierbaren und durchsuchbaren Text um.
Warum ist OCR für Barrierefreiheit wichtig?
Ohne OCR sind gescannte PDFs nur Bilder, die von Screen Readern nicht gelesen werden können. OCR extrahiert den Text und macht ihn für assistive Technologien zugänglich.
Wie genau ist OCR?
Moderne OCR erreicht bei guter Vorlagenqualität Erkennungsraten über 99%. Handschrift, schlechte Scans oder ungewöhnliche Schriftarten können die Genauigkeit reduzieren.
Reicht OCR für barrierefreie PDFs?
Nein, OCR ist nur der erste Schritt. Danach muss das Dokument noch mit Tags strukturiert, die Lesereihenfolge geprüft und Alternativtexte ergänzt werden.
Barrierefreie PDFs erstellen? Jetzt kostenlos starten →