Character Encoding – Zeichenkodierung in PDFs – Definition & Erklärung

Was ist Character Encoding?

Character Encoding (Zeichenkodierung) ist das System, das bestimmt, wie Textzeichen als Bytes in einer Datei gespeichert werden. In PDFs ist die korrekte Zeichenkodierung entscheidend für die Darstellung, Extraktion und Barrierefreiheit von Text.

Wichtige Kodierungen

Kodierung	Beschreibung	Zeichenumfang
ASCII	7-Bit Basis	128 Zeichen (A-Z, 0-9)
Latin-1	Western European	256 Zeichen inkl. Umlaute
WinAnsiEncoding	Windows Standard	256 Zeichen, Windows-spezifisch
Unicode (UTF-8)	Universell	~150.000 Zeichen weltweit

Encoding in PDFs

PDFs können verschiedene Encodings verwenden:

Font Encoding: Wie Zeichen in der Schrift gespeichert sind
Text Encoding: Wie Textstrings im PDF kodiert sind
ToUnicode: Mapping für Textextraktion

Probleme mit Zeichenkodierung

Symptome

Umlaute werden als Sonderzeichen angezeigt (ä → Ã¤)
Text kann nicht korrekt kopiert werden
Suche findet Wörter mit Umlauten nicht

Ursachen

Falsche oder fehlende Encoding-Information
Inkompatible Kodierung zwischen Quelle und PDF
Fehlende ToUnicode-CMap

PDF/UA-Anforderungen

Unicode-Mapping: Alle Zeichen müssen Unicode haben
ToUnicode-CMap: Pflicht für Textextraktion
ActualText: Für Sonderfälle wie Ligaturen

Best Practices

Unicode-fähige Schriften verwenden
Bei Export Unicode-Optionen aktivieren
Schriften vollständig einbetten
Mit PAC auf Encoding-Probleme prüfen

Häufige Fragen zur Zeichenkodierung

Warum werden meine Umlaute falsch angezeigt?

Meist ein Encoding-Problem: Die Datei wurde mit einer anderen Kodierung erstellt als der Reader erwartet. Prüfen Sie die Schrift-Einstellungen und das ToUnicode-Mapping.

Welche Kodierung sollte ich für PDFs verwenden?

Moderne PDF-Erstellungssoftware verwendet automatisch Unicode. Achten Sie auf eingebettete Schriften mit ToUnicode-CMap für maximale Kompatibilität.

Zurück zur Glossar-Übersicht

Character Encoding – Zeichenkodierung in PDFs