Was ist ToUnicode?
ToUnicode ist eine spezielle Character Map (CMap) in PDF-Dateien, die die Zuordnung von Schrift-Glyphen zu Unicode-Zeichencodes definiert. Sie ist essenziell für die Textextraktion, Suche und Barrierefreiheit.
Funktion der ToUnicode-CMap
- Übersetzt interne Glyph-IDs in Unicode-Zeichen
- Ermöglicht korrektes Kopieren von Text
- Basis für Volltextsuche im PDF
- Ermöglicht Screenreadern das Vorlesen
Technische Struktur
Eine ToUnicode-CMap ist ein PDF-Stream mit folgender Struktur:
/CIDInit /ProcSet findresource begin 12 dict begin begincmap /CMapType 2 def 1 begincodespacerange <0000>endcodespacerange 2 beginbfchar <0024> <0041> % Glyph 36 → A <0025> <0042> % Glyph 37 → B endbfchar endcmap
PDF/UA-Anforderungen
| Anforderung | Matterhorn | Beschreibung |
|---|---|---|
| ToUnicode vorhanden | 14-006 | Jede Schrift braucht Mapping |
| Vollständige Zuordnung | 14-007 | Alle Glyphen gemappt |
| Korrekte Unicode-Werte | Manuell | Mapping muss stimmen |
ToUnicode prüfen
Mit PAC
PAC meldet fehlende oder unvollständige ToUnicode-CMaps als Fehler unter „Unicode-Zuordnung“.
Mit Acrobat Preflight
Unter „PDF-Analyse“ → „Schriften“ können ToUnicode-CMaps eingesehen werden.
Alternativen zu ToUnicode
ActualText
Für komplexe Fälle (Ligaturen, Symbolschriften) kann ActualText als Tag-Attribut verwendet werden:
/Span <>
Verwandte Begriffe
- Unicode-Mapping – Allgemeines Konzept
- CMap – Character Map allgemein
- Glyph – Schriftzeichen
- Embedded Fonts – Schrifteinbettung
Häufige Fragen zu ToUnicode
Was bedeutet „Missing ToUnicode CMap“ in PAC?
Eine oder mehrere Schriften im PDF haben keine Unicode-Zuordnung. Text kann nicht korrekt extrahiert oder vorgelesen werden. Das PDF muss neu erstellt werden.
Kann ich eine ToUnicode-CMap nachträglich hinzufügen?
Nur mit spezialisierten PDF-Editoren und entsprechendem Fachwissen. In den meisten Fällen ist eine Neuerstellung des PDFs aus dem Quelldokument einfacher.