Features Preise FAQ
Branchen
Behörden Unternehmen Bildung Gesundheit Finanzen Recht
Ressourcen
Ratgeber Glossar
Login Kostenlos starten
Features Preise FAQ
Branchen
Behörden Unternehmen Bildung Gesundheit Finanzen Recht
Ressourcen
Ratgeber Glossar
Login Kostenlos starten
Glossar-Eintrag

Character Encoding – Zeichenkodierung in PDFs

Was ist Character Encoding?

Character Encoding (Zeichenkodierung) ist das System, das bestimmt, wie Textzeichen als Bytes in einer Datei gespeichert werden. In PDFs ist die korrekte Zeichenkodierung entscheidend für die Darstellung, Extraktion und Barrierefreiheit von Text.

Wichtige Kodierungen

Kodierung Beschreibung Zeichenumfang
ASCII 7-Bit Basis 128 Zeichen (A-Z, 0-9)
Latin-1 Western European 256 Zeichen inkl. Umlaute
WinAnsiEncoding Windows Standard 256 Zeichen, Windows-spezifisch
Unicode (UTF-8) Universell ~150.000 Zeichen weltweit

Encoding in PDFs

PDFs können verschiedene Encodings verwenden:

  • Font Encoding: Wie Zeichen in der Schrift gespeichert sind
  • Text Encoding: Wie Textstrings im PDF kodiert sind
  • ToUnicode: Mapping für Textextraktion

Probleme mit Zeichenkodierung

Symptome

  • Umlaute werden als Sonderzeichen angezeigt (ä → ä)
  • Text kann nicht korrekt kopiert werden
  • Suche findet Wörter mit Umlauten nicht

Ursachen

  • Falsche oder fehlende Encoding-Information
  • Inkompatible Kodierung zwischen Quelle und PDF
  • Fehlende ToUnicode-CMap

PDF/UA-Anforderungen

  • Unicode-Mapping: Alle Zeichen müssen Unicode haben
  • ToUnicode-CMap: Pflicht für Textextraktion
  • ActualText: Für Sonderfälle wie Ligaturen

Best Practices

  • Unicode-fähige Schriften verwenden
  • Bei Export Unicode-Optionen aktivieren
  • Schriften vollständig einbetten
  • Mit PAC auf Encoding-Probleme prüfen

Verwandte Begriffe

Häufige Fragen zur Zeichenkodierung

Warum werden meine Umlaute falsch angezeigt?

Meist ein Encoding-Problem: Die Datei wurde mit einer anderen Kodierung erstellt als der Reader erwartet. Prüfen Sie die Schrift-Einstellungen und das ToUnicode-Mapping.

Welche Kodierung sollte ich für PDFs verwenden?

Moderne PDF-Erstellungssoftware verwendet automatisch Unicode. Achten Sie auf eingebettete Schriften mit ToUnicode-CMap für maximale Kompatibilität.