Unicode-Mapping – Zeichenzuordnung in PDFs – Definition & Erklärung

Was ist Unicode-Mapping?

Unicode-Mapping ist die Zuordnung von internen PDF-Schriftzeichen (Glyphen) zu standardisierten Unicode-Zeichencodes. Diese Zuordnung ermöglicht es, Text aus PDFs korrekt zu kopieren, zu durchsuchen und von Screenreadern vorlesen zu lassen.

Warum Unicode-Mapping wichtig ist

Text kopieren: Buchstaben werden korrekt in die Zwischenablage übernommen
Suchen: Volltextsuche im PDF funktioniert
Screenreader: Text wird korrekt vorgelesen
Barrierefreiheit: PDF/UA fordert Unicode-Mapping

Technischer Hintergrund

PDFs verwenden intern Glyph-IDs, keine Unicode-Zeichen:

Glyph-ID	Unicode	Zeichen
36	U+0041	A
37	U+0042	B
68	U+00E4	ä
…	…	…

Ohne Mapping weiß der Reader nicht, welcher Buchstabe gemeint ist.

ToUnicode-CMap

Die ToUnicode-CMap ist die Zuordnungstabelle im PDF:

Enthält Glyph-ID → Unicode-Mapping
Wird bei PDF-Erstellung automatisch generiert
Kann bei älteren PDFs fehlen

Probleme ohne Unicode-Mapping

Symptome

Kopierter Text zeigt Sonderzeichen oder Leerzeichen
Suche findet bekannte Wörter nicht
Screenreader liest Buchstabenfolge statt Wörter

Ursachen

Alte PDF-Erstellungssoftware
Symbolschriften ohne Unicode
Gescannte Dokumente ohne OCR

PDF/UA-Anforderungen

Alle Glyphen: Müssen Unicode-Mapping haben
ToUnicode-CMap: Muss vorhanden sein
ActualText: Alternative für komplexe Fälle

Häufige Fragen zum Unicode-Mapping

Warum kann ich Text nicht korrekt kopieren?

Wahrscheinlich fehlt das Unicode-Mapping. Prüfen Sie mit PAC auf „ToUnicode“-Fehler oder nutzen Sie OCR für gescannte Dokumente.

Kann fehlendes Unicode-Mapping nachträglich ergänzt werden?

Bei eingebetteten Fonts teilweise ja (mit speziellen Tools). Bei gescannten PDFs ist OCR erforderlich. Besser: Bereits bei der Erstellung korrektes Mapping sicherstellen.

Zurück zur Glossar-Übersicht

Unicode-Mapping – Zeichenzuordnung in PDFs