Was ist Unicode-Mapping?
Unicode-Mapping ist die Zuordnung von internen PDF-Schriftzeichen (Glyphen) zu standardisierten Unicode-Zeichencodes. Diese Zuordnung ermöglicht es, Text aus PDFs korrekt zu kopieren, zu durchsuchen und von Screenreadern vorlesen zu lassen.
Warum Unicode-Mapping wichtig ist
- Text kopieren: Buchstaben werden korrekt in die Zwischenablage übernommen
- Suchen: Volltextsuche im PDF funktioniert
- Screenreader: Text wird korrekt vorgelesen
- Barrierefreiheit: PDF/UA fordert Unicode-Mapping
Technischer Hintergrund
PDFs verwenden intern Glyph-IDs, keine Unicode-Zeichen:
| Glyph-ID | Unicode | Zeichen |
|---|---|---|
| 36 | U+0041 | A |
| 37 | U+0042 | B |
| 68 | U+00E4 | ä |
| … | … | … |
Ohne Mapping weiß der Reader nicht, welcher Buchstabe gemeint ist.
ToUnicode-CMap
Die ToUnicode-CMap ist die Zuordnungstabelle im PDF:
- Enthält Glyph-ID → Unicode-Mapping
- Wird bei PDF-Erstellung automatisch generiert
- Kann bei älteren PDFs fehlen
Probleme ohne Unicode-Mapping
Symptome
- Kopierter Text zeigt Sonderzeichen oder Leerzeichen
- Suche findet bekannte Wörter nicht
- Screenreader liest Buchstabenfolge statt Wörter
Ursachen
- Alte PDF-Erstellungssoftware
- Symbolschriften ohne Unicode
- Gescannte Dokumente ohne OCR
PDF/UA-Anforderungen
- Alle Glyphen: Müssen Unicode-Mapping haben
- ToUnicode-CMap: Muss vorhanden sein
- ActualText: Alternative für komplexe Fälle
Verwandte Begriffe
- ToUnicode – Die Mapping-Tabelle
- CMap – Character Map allgemein
- Glyph – Einzelnes Schriftzeichen
- Embedded Fonts – Schrifteinbettung
Häufige Fragen zum Unicode-Mapping
Warum kann ich Text nicht korrekt kopieren?
Wahrscheinlich fehlt das Unicode-Mapping. Prüfen Sie mit PAC auf „ToUnicode“-Fehler oder nutzen Sie OCR für gescannte Dokumente.
Kann fehlendes Unicode-Mapping nachträglich ergänzt werden?
Bei eingebetteten Fonts teilweise ja (mit speziellen Tools). Bei gescannten PDFs ist OCR erforderlich. Besser: Bereits bei der Erstellung korrektes Mapping sicherstellen.