Texte

sind erst einmal das Wichtigste, dass man mit Hilfe eines Computers verarbeiten muss. - Abgesehen von Zahlen natürlich.

Schon 1833 hat man sich Samuel Morse Gedanken darüber gemacht, wie man Zeichen mit Hilfe elektrischer Geräte übertragen kann. 1963 wurd der ASCII-Code entwickelt, den es (in abgeänderter Form seit 1968) sehr berechtigterweise noch heute gibt. Im Laufe der Zeit stellte sich jedoch heraus, dass in Ländern außerhalb der USA Buchstaben existierten, die im ASCII-Code nicht aufgeführt waren.

ASCII nutzt nur 7 Bit. Daher hat man für verschiedene Sprachen verschiedene Codes entwickelt, die 8 Bit nutzen. Leider kann man nicht anhand eines Textes erkennen, um welche Kodierung es sich handelt. Tauchen heute Probleme beispielsweise mit Umlauten auf, liegt das genau daran.

Um endlich alle Probleme zu beseitigen, hat man versucht eine Kodierung zu entwickeln, die alle vorhandenen Symbole der Welt in sich vereinigt, den Unicode. Leider gibt es auch hier wieder verschiedene Implementationen des Unicodes. Die am häufigsten vorkommenden sind UTF-8 und UTF-16. Wobei UTF-8 den enormen Vorteil besitzt, ASCII ohne Änderungen vollständig übernehmen zu können.

UTF-8

Die Zeichen werden mit unterschiedlicher Länge kodiert. Dabei sind Längen von 1 bis 4 Byte erlaubt. Der Anfang des jeweils ersten Bytes gibt die Länge der Kodierung an:

0… bedeutet: ASCII-Zeichen, Länge 1 Byte
110… bedeutet: Länge 2 Bytes - das zweite Byte beginnt mit 10…
1110… bedeutet: Länge 3 Bytes - die restlichen Bytes beginnen mit 10…
11110… bedeutet: Länge 4 Bytes - die restlichen Bytes beginnen mit 10…