Einstellungen
zum Text
ändere Medientyp
xhtml+xml
ändere Sprache
english
scripting

URI: http://www.j-a-b.net/web/char/char-unicode
aktualisiert: 2009-12-04
© 2002-2009 Contact

up down
Themenindex

Der Unicode Zeichensatz — Einführung

Den Unicode-­Zeichensatz kann man sich als eine Erweiterung des einfachen 7-bit ASCII-Zeichensatzes vorstellen. Während der ASCII-­Zeichensatz 128 Zeichen beschreibt, ist es mit dem Unicode-­Zeichensatz möglich, sämtliche Zeichen der heutzutage existie­renden Schriftsprachen zu kodieren. Darüber hinaus werden auch alte Schrift­sprachen, mathematische Formel­zeichen, typo­graphische Symbole (dingbats), allgemeine Symbole, diakritische Zeichen usw. kodiert. Der Unicode-­Zeichensatz umfasst damit bis jetzt 1.114.112 Zeichen.

Der Unicode-­Zeichensatz beschreibt allerdings nicht, wie ein Zeichen auszusehen hat, sondern er definiert Zeichen und ihre Kodierung. Eine Definition lautet beispielsweise LATIN CAPITAL LETTER A WITH DIAERESIS (lateinischer Groß­buchstabe A mit Umlaut) und die entsprechende Kodierung 196dez bzw. 00C4hex. Wie dieses Zeichen letzt­endlich auf dem Bildschirm oder auf Papier dargestellt wird, bleibt den verwendeten Programmen überlassen. Die tausende existierenden Schriftarten stellen dieses Zeichen dann gemäß ihres individuellen Schriftbildes dar, wie folgende Abbildung zeigt.

Das Zeichen 'LATIN CAPITAL LETTER A WITH DIAERESIS' in unterschiedlichen Schriftarten dargestellt

Ein großer Teil der Schrift­zeichen heutiger Schrift­sprachen ist schon mit zwei Byte kodierbar. Dieser Kodierungs­raum (code space) enthält 65536 Zeichen und wird als Basic Multilingual Plain BMP bezeichnet. Für die Kodierung weiterer Zeichen sind drei Bytes notwendig, es wird jedoch mit dem aktuellen Unicode Standard sogar eine Kodierung mit vier Byte ermöglicht. Dies entspricht einer möglichen Kodierung von 232 = 4.294.967.296 Zeichen.

Der Unicode wird über eine weitere Kodierung, UTF, in eine neue Bytesequenz gebracht, welche an die weiter verarbeitenden Programme weiter geleitet wird. Es existieren mehrere Formen des UTF: UTF-5, UTF-7, UTF-8, UTF-16 und UTF-32. Am weitesten verbreitet und bekanntesten ist das UTF-8 Format, welches nahezu alle Browser, Textverarbeitungs­programme usw. umsetzen können. Gleichzeitig dient die Angabe UTF-8 in meta-tags von Webseiten und den Kodierungs­einstellungen der Browser der Kenntlich­machung des verwandten Zeichensatzes.

Nun ist bei weitem nicht jede beliebige Schriftart automatisch in der Lage, den kompletten Unicode-­Zeichensatz auch darzustellen. Insbesondere Fantasie­schriftarten wie z.B. Parchment decken in der Regel höchstens den Latin-1 Zeichensatz oder die ISO-8859 Gruppe ab. Im folgenden ist eine kleine Auflistung von Schriftarten, welche in der Lage sind, über die ISO-8859-Gruppe hinaus gehende Zeichensätze darzustellen. Durch klick auf einen Schrift­arten­namen gelangst Du zu einem Beispiel des entsprechenden Schriftbildes.

Übersicht Unicode-kompatibler Schriftarten mit Bezugsquellen
Schriftart darstellbare Zeichen Schriftfamilie Information Größe Download[1]
[1]die in der Liste aufgeführten herunter­ladbaren Schriftarten sind zwar bis auf eine (Code2000) kostenlos; die unentgeltliche Nutzung bezieht sich jedoch ausschließlich auf den privaten Gebrauch. Zur kommerziellen Nutzung siehe die entsprechenden Websites
Bitstream CyberBase 1249serif Netscape - Public FTP Server
171kB download
Bitstream CyberBit 29934serif Netscape - Public FTP Server
6227kB download
APL Unicode Font Extended - SImPL ~1000monospace Vector.org - APL-Fonts
209kB download
Code2000 34810serif http://home.att.net/~jameskass/
Shareware
1219kB download
Fixedsys Excelsior >4100monospace http://www.fixedsys.org/
233kB download
Gentium 1387serif SIL International - NRSI - Gentium
601kB download
Lucida Sans Unicode 1776sans-serif Dept. of Phonetics & Linguistics University College London
298kB download
Titus Cyberbit Basic 9779serif TITUS808kB download
Arial 1320sans-serif SourceForge-Net:
Smart package of Microsoft's core fonts

542kB download
Times New Roman 1320serif647kB download
Courier New 1318monospace632kB download
Verdana 893sans-serif344kB download
Andale Mono 659monospace194kB download
Arial Black 669sans-serif165kB download
Comic Sans MS 574kursiv241kB download
Georgia 585serif384kB download
Impact 661fantasy170kB download
Trebuchet MS 576sans-serif349kB download
Arial Unicode MS 51180sans-serifin MS Office 2000, Office XP und Publisher 2002 enthalten 
Themenindex

CC logo
Diese Seite ist veröffentlicht unter einer Creative Commons License.