Features Preise FAQ
Branchen
Behörden Unternehmen Bildung Gesundheit Finanzen Recht
Ressourcen
Ratgeber Glossar
Login Kostenlos starten
Features Preise FAQ
Branchen
Behörden Unternehmen Bildung Gesundheit Finanzen Recht
Ressourcen
Ratgeber Glossar
Login Kostenlos starten
Glossar-Eintrag

ToUnicode – CMap für Unicode-Zuordnung in PDFs

Was ist ToUnicode?

ToUnicode ist eine spezielle Character Map (CMap) in PDF-Dateien, die die Zuordnung von Schrift-Glyphen zu Unicode-Zeichencodes definiert. Sie ist essenziell für die Textextraktion, Suche und Barrierefreiheit.

Funktion der ToUnicode-CMap

  • Übersetzt interne Glyph-IDs in Unicode-Zeichen
  • Ermöglicht korrektes Kopieren von Text
  • Basis für Volltextsuche im PDF
  • Ermöglicht Screenreadern das Vorlesen

Technische Struktur

Eine ToUnicode-CMap ist ein PDF-Stream mit folgender Struktur:

/CIDInit /ProcSet findresource begin
12 dict begin
begincmap
/CMapType 2 def
1 begincodespacerange
<0000> 
endcodespacerange
2 beginbfchar
<0024> <0041>  % Glyph 36 → A
<0025> <0042>  % Glyph 37 → B
endbfchar
endcmap

PDF/UA-Anforderungen

Anforderung Matterhorn Beschreibung
ToUnicode vorhanden 14-006 Jede Schrift braucht Mapping
Vollständige Zuordnung 14-007 Alle Glyphen gemappt
Korrekte Unicode-Werte Manuell Mapping muss stimmen

ToUnicode prüfen

Mit PAC

PAC meldet fehlende oder unvollständige ToUnicode-CMaps als Fehler unter „Unicode-Zuordnung“.

Mit Acrobat Preflight

Unter „PDF-Analyse“ → „Schriften“ können ToUnicode-CMaps eingesehen werden.

Alternativen zu ToUnicode

ActualText

Für komplexe Fälle (Ligaturen, Symbolschriften) kann ActualText als Tag-Attribut verwendet werden:

/Span <>

Verwandte Begriffe

Häufige Fragen zu ToUnicode

Was bedeutet „Missing ToUnicode CMap“ in PAC?

Eine oder mehrere Schriften im PDF haben keine Unicode-Zuordnung. Text kann nicht korrekt extrahiert oder vorgelesen werden. Das PDF muss neu erstellt werden.

Kann ich eine ToUnicode-CMap nachträglich hinzufügen?

Nur mit spezialisierten PDF-Editoren und entsprechendem Fachwissen. In den meisten Fällen ist eine Neuerstellung des PDFs aus dem Quelldokument einfacher.