URI: http://www.j-a-b.net/web/char/char-unicode
aktualisiert: 2009-12-04
© 2002-2009 Contact
Den Unicode-Zeichensatz kann man sich als eine Erweiterung des einfachen 7-bit ASCII-Zeichensatzes vorstellen. Während der ASCII-Zeichensatz 128 Zeichen beschreibt, ist es mit dem Unicode-Zeichensatz möglich, sämtliche Zeichen der heutzutage existierenden Schriftsprachen zu kodieren. Darüber hinaus werden auch alte Schriftsprachen, mathematische Formelzeichen, typographische Symbole (dingbats), allgemeine Symbole, diakritische Zeichen usw. kodiert. Der Unicode-Zeichensatz umfasst damit bis jetzt 1.114.112 Zeichen.
Der Unicode-Zeichensatz beschreibt allerdings nicht, wie ein Zeichen
auszusehen hat, sondern er definiert Zeichen und ihre Kodierung. Eine Definition
lautet beispielsweise LATIN CAPITAL LETTER A
WITH DIAERESIS (lateinischer Großbuchstabe A mit Umlaut) und die
entsprechende Kodierung 196dez bzw. 00C4hex.
Wie dieses Zeichen letztendlich auf dem Bildschirm oder auf Papier dargestellt
wird, bleibt den verwendeten Programmen überlassen. Die tausende existierenden
Schriftarten stellen dieses Zeichen dann gemäß ihres individuellen Schriftbildes
dar, wie folgende Abbildung zeigt.
Ein großer Teil der Schriftzeichen heutiger Schriftsprachen ist schon mit zwei Byte kodierbar. Dieser Kodierungsraum (code space) enthält 65536 Zeichen und wird als Basic Multilingual Plain BMP bezeichnet. Für die Kodierung weiterer Zeichen sind drei Bytes notwendig, es wird jedoch mit dem aktuellen Unicode Standard sogar eine Kodierung mit vier Byte ermöglicht. Dies entspricht einer möglichen Kodierung von 232 = 4.294.967.296 Zeichen.
Der Unicode wird über eine weitere Kodierung, UTF,
in eine neue Bytesequenz gebracht, welche an die weiter verarbeitenden Programme
weiter geleitet wird. Es existieren mehrere Formen des UTF: UTF-5, UTF-7, UTF-8,
UTF-16 und UTF-32. Am weitesten verbreitet und bekanntesten ist das UTF-8 Format,
welches nahezu alle Browser, Textverarbeitungsprogramme usw. umsetzen können.
Gleichzeitig dient die Angabe UTF-8 in meta-tags von
Webseiten und den Kodierungseinstellungen der Browser der Kenntlichmachung
des verwandten
Zeichensatzes.
Nun ist bei weitem nicht jede beliebige Schriftart automatisch in der Lage, den
kompletten Unicode-Zeichensatz auch darzustellen. Insbesondere Fantasieschriftarten
wie z.B. Parchment decken in der Regel höchstens den Latin-1
Zeichensatz oder die ISO-8859 Gruppe ab.
Im folgenden ist eine kleine Auflistung von Schriftarten, welche in der Lage sind,
über die ISO-8859-Gruppe hinaus gehende Zeichensätze darzustellen.
Durch klick auf einen Schriftartennamen gelangst Du zu einem Beispiel
des entsprechenden Schriftbildes.
| Schriftart | darstellbare Zeichen | Schriftfamilie | Information | Größe | Download[1] |
|---|---|---|---|---|---|
| [1]die in der Liste aufgeführten herunterladbaren Schriftarten sind zwar bis auf eine (Code2000) kostenlos; die unentgeltliche Nutzung bezieht sich jedoch ausschließlich auf den privaten Gebrauch. Zur kommerziellen Nutzung siehe die entsprechenden Websites | |||||
| Bitstream CyberBase | 1249 | serif |
Netscape - Public FTP Server | 171kB |
|
| Bitstream CyberBit | 29934 | serif |
Netscape - Public FTP Server | 6227kB |
|
| APL Unicode Font Extended - SImPL | ~1000 | monospace |
Vector.org - APL-Fonts | 209kB |
|
| Code2000 | 34810 | serif |
http://home.att.net/~jameskass/ Shareware | 1219kB |
|
| Fixedsys Excelsior | >4100 | monospace |
http://www.fixedsys.org/ | 233kB |
|
| Gentium | 1387 | serif |
SIL International - NRSI - Gentium | 601kB |
|
| Lucida Sans Unicode | 1776 | sans-serif |
Dept. of Phonetics & Linguistics University College London | 298kB |
|
| Titus Cyberbit Basic | 9779 | serif | TITUS | 808kB |
|
| Arial | 1320 | sans-serif |
SourceForge-Net: Smart package of Microsoft's core fonts | 542kB |
|
| Times New Roman | 1320 | serif | 647kB |
|
|
| Courier New | 1318 | monospace | 632kB |
|
|
| Verdana | 893 | sans-serif | 344kB |
|
|
| Andale Mono | 659 | monospace | 194kB |
|
|
| Arial Black | 669 | sans-serif | 165kB |
|
|
| Comic Sans MS | 574 | kursiv | 241kB |
|
|
| Georgia | 585 | serif | 384kB |
|
|
| Impact | 661 | fantasy | 170kB |
|
|
| Trebuchet MS | 576 | sans-serif | 349kB |
|
|
| Arial Unicode MS | 51180 | sans-serif | in MS Office 2000, Office XP und Publisher 2002 enthalten | ||