Was ist Character Encoding?
Character Encoding (Zeichenkodierung) ist das System, das bestimmt, wie Textzeichen als Bytes in einer Datei gespeichert werden. In PDFs ist die korrekte Zeichenkodierung entscheidend für die Darstellung, Extraktion und Barrierefreiheit von Text.
Wichtige Kodierungen
| Kodierung | Beschreibung | Zeichenumfang |
|---|---|---|
| ASCII | 7-Bit Basis | 128 Zeichen (A-Z, 0-9) |
| Latin-1 | Western European | 256 Zeichen inkl. Umlaute |
| WinAnsiEncoding | Windows Standard | 256 Zeichen, Windows-spezifisch |
| Unicode (UTF-8) | Universell | ~150.000 Zeichen weltweit |
Encoding in PDFs
PDFs können verschiedene Encodings verwenden:
- Font Encoding: Wie Zeichen in der Schrift gespeichert sind
- Text Encoding: Wie Textstrings im PDF kodiert sind
- ToUnicode: Mapping für Textextraktion
Probleme mit Zeichenkodierung
Symptome
- Umlaute werden als Sonderzeichen angezeigt (ä → ä)
- Text kann nicht korrekt kopiert werden
- Suche findet Wörter mit Umlauten nicht
Ursachen
- Falsche oder fehlende Encoding-Information
- Inkompatible Kodierung zwischen Quelle und PDF
- Fehlende ToUnicode-CMap
PDF/UA-Anforderungen
- Unicode-Mapping: Alle Zeichen müssen Unicode haben
- ToUnicode-CMap: Pflicht für Textextraktion
- ActualText: Für Sonderfälle wie Ligaturen
Best Practices
- Unicode-fähige Schriften verwenden
- Bei Export Unicode-Optionen aktivieren
- Schriften vollständig einbetten
- Mit PAC auf Encoding-Probleme prüfen
Verwandte Begriffe
- Unicode-Mapping – Zeichenzuordnung
- ToUnicode – CMap für Unicode
- Glyph – Schriftzeichen
- Embedded Fonts – Schrifteinbettung
Häufige Fragen zur Zeichenkodierung
Warum werden meine Umlaute falsch angezeigt?
Meist ein Encoding-Problem: Die Datei wurde mit einer anderen Kodierung erstellt als der Reader erwartet. Prüfen Sie die Schrift-Einstellungen und das ToUnicode-Mapping.
Welche Kodierung sollte ich für PDFs verwenden?
Moderne PDF-Erstellungssoftware verwendet automatisch Unicode. Achten Sie auf eingebettete Schriften mit ToUnicode-CMap für maximale Kompatibilität.