Zeichensätze Glossar Zeichensätze

Transcrição

Zeichensätze
Glossar
Zeichensätze
1
Index Zeichensätze
1-aus-n-Code
IA-5-Alphabet
1-Byte-Zeichensatz
Internationales Telegrafenalphabet
7-Bit-Code
ISO 8859
8-Bit-Code
ISO-Latin-1
Alphabet
PC8-Code
Alphanumerik
Sonderzeichen
ANSI-Code
UCS-Zeichensatz
ASCII-Zeichensatz
Unicode
Base64, Base64 code
UTF, unicode transformation format
Baudot-Code
UTF-8, unicode transformation format 8
DBCS, double byte character set
UTF-16, unicode transformation format 16
Digit
Zeichen
EBCDIC-Code
Zeichensatz
Fernschreibcode
Zeichenvorrat
IA-2-Alphabet
Impressum
2
Zeichensätze
1-aus-n-Code
1 out of n code
Bei dem 1-aus-n-Code besteht jedes Maschinenwort aus einer „1“. Alle restlichen Stellen sind
„0“. Bei diesem Code kommt es zu sehr umfangreichen Wortlängen. So könnte beispielsweise
der Buchstabe „A“ dem Maschinenwort 0001 entsprechen, der Buchstabe „B“ dem 0010 und „C“
dem 0100.
In der Version 1-aus-10 verschiebt sich das jeweilige Bit in dem zehnstelligen Datenwort vom
Least Significant Bit (LSB) für den Dezimalwert 0: 0000000001, zum Most Significant Bit
(MSB) für die Ziffer 9: 1000000000.
1-Byte-Zeichensatz
SBCS, single byte
character set
Ein 1-Byte-Zeichensatz, Single Byte Character Set (SBCS), stellt jedes einzelne Zeichen in
einem Byte dar. Mit einem solchen Zeichensatz können somit 256 verschiedene Zeichen
darstellt werden. 1-Byte-Zeichensätze werden für Buchstaben-, Ziffern- und Steuerzeichen
eingesetzt. Häufig sind Doppelbyte-Zeichensätze so aufgebaut, dass sie die Zeichen aus
einem 1-Byte-Zeichensatz interpretieren können.
Der bekannteste 1-Byte-Zeichensatz ist der ASCII-Zeichensatz.
7-Bit-Code
Beim 7-Bit-Code, auch bekannt als IA-5-Alphabet, handelt es sich um den ASCII-Zeichensatz
zur Darstellung von insgesamt 128 alphanumerischen Zeichen, Ziffern, Sonder- und
Steuerzeichen. Dieser Code wurde international als Referenz-Code unter ISO/IEC 646
standardisiert. Die deutsche Referenz wurde von DIN unter DIN 66003 genormt.
Beim 7-Bit-Code wird jedes Zeichen mit 7 Bit dargestellt. Die Zeichen sind in einer
Codetabelle gegliedert und sind durch die Spalten- und Zeilennummer festgelegt. Die
Nummerierung kann in binärer oder hexadezimaler Schreibweise sein.
Wenn der 7-Bit-Code in Bytes dargestellt wird, wird das fehlende achte Bit durch ein Prüfbit
ergänzt.
3
Zeichensätze
8-Bit-Code
Der 8-Bit-Code basiert auf dem 7-Bit-Code, der um Sprachgruppen erweitert wurde und sich an
Weltregionen orientiert. So ist gibt es mit Latein 1 Code-Elemente für die westeuropäischen
Sprachen, ebenso wie für Amerika, Australien und Afrika. Latein 2 erfüllt die Anforderungen an
die osteuropäischen Sprachen. Des Weiteren gibt es spezielle Code-Elemente für die
hebräische, kyrillische, arabische oder andere Sprachen.
Beim 8-Bit-Code ist das Byte die kleinste darstellbare Einheit. Mit diesem Coder können 256
Zeichen binär dargestellt werden.
Alphabet
Ein Alphabet ist ein in vereinbarter Reihenfolge geordneter Zeichenvorrat von
unterscheidbaren Zeichen, z.B. Buchstaben, Zeichen, Ziffern und Sonderzeichen. Der Umfang
eines solchen Zeichenvorrats ist in der Regel endlich. Als Beispiel sei das lateinische Alphabet
angeführt, dessen Buchstaben in einer Ordnungsrelation unterliegen.
Alphabete werden als geordnete Zeichensätze in der Informations- und
Kommunikationstechnik durch einen Code repräsentiert. Typische Codes für Zeichensätze sind
u. a. ASCII, EBCDIC, Unicode, ANSI-Code.
Alphanumerik
AN, alphanumeric
Das Wort Alphanumerik setzt sich zusammen aus Alpha und Numerik. Das Alphabet steht für
ein geordnetes Buchstabensystem, die Numerik für Ziffern und Vorzeichen. Als Gattungsbegriff
steht Alphanumerik für Buchstaben, Ziffern und Zeichen. Sobald in einem Dokument
Buchstaben, Ziffern, Satz- und Sonderzeichen verwendet werden, handelt es sich um
Alphanumerik.
ANSI-Code
Der ANSI-Code ist ein 8-Bit-Code, mit dem insgesamt 256 Zeichen darstellbar sind.
Der ANSI-Code umfasst neben dem deutschen Schriftsatz mit Groß- und Kleinbuchstaben,
4
Zeichensätze
Buchstaben aus anderen Schriftsätzen, Ziffern und Sonderzeichen sowie spezielle
Steuerzeichen für die textliche Bearbeitung, für Drucker und das Aufrufen von Grafiken. Er
wurde von der ANSI spezifiziert und unterstützt die Gestaltung von Benutzeroberflächen.
ASCII-Zeichensatz
Der ASCII-Zeichensatz (American Standard Code for Information Interchange) ist ein von der
ASCII, american standard
code for information
interchange
ISO unter ISO/IEC 646 standardisierter Code zur Darstellung von Groß- und Kleinbuchstaben,
Ziffern, Sonder- und Steuerzeichen, die einem zweistelligen Zahlencode zugeordnet werden.
Jedes Zeichen besteht aus 7 Bit, wodurch insgesamt 128 verschiedene Zeichen darstellbar
sind. Dazu gehören Groß- und Kleinbuchstaben, Ziffern und Sonderzeichen. In der erweiterten
Version hat der ASCII-Zeichensatz (Extended ASCII) 8 Bits, wodurch weitere 128 Zeichen
dargestellt werden können. Dabei kann es sich um alphanumerische Textzeichen, um
Sonderzeichen, Steuerzeichen, Symbole oder länderspezifische Zeichen handeln. Das achte Bit
wird auch als Paritätsbit benutzt. Die deutsche Version enthält auch Zeichen für Umlaute (DIN
660023).
Die ersten 32 Zeichen des ASCII-Zeichensatzes sind Steuerzeichen, die auf einem Bildschirm
oder Drucker nicht dargestellt werden. Die Steuerzeichen dienen bei den zeichenorientierten
Übertragungsprotokollen dem reibungslosen Ablauf des Informationsaustausches.
Der 7-Bit-Code wurde von ANSI eingeführt, um Kompatibilität zwischen Datendiensten zu
erreichen. Andere Bezeichnungen für diesen Code sind: IA-5-Alphabet, ISO-7-Bit-Code,
USASCII-Code, CCITT-Code Nr. 5. Von der ISO unter ISO/IEC 646 standardisierter Code zur
Darstellung von Groß- und Kleinbuchstaben, Ziffern, Sonder- und Steuerzeichen, die einem
zweistelligen Zahlencode zugeordnet werden.
Jedes Zeichen besteht aus 7 Bit, wodurch insgesamt 128 verschiedene Zeichen darstellbar
sind. Dazu gehören Groß- und Kleinbuchstaben, Ziffern und Sonderzeichen. In der erweiterten
5
Zeichensätze
6
Zeichensätze
Version hat der ASCII-Zeichensatz (Extended ASCII) 8 Bits, wodurch weitere 128 Zeichen
dargestellt werden können. Dabei kann es sich um alphanumerische Textzeichen, um
Sonderzeichen, Steuerzeichen, Symbole oder länderspezifische Zeichen handeln. Das achte Bit
wird auch als Paritätsbit benutzt. Die deutsche Version enthält auch Zeichen für Umlaute (DIN
660023).
Die ersten 32 Zeichen der ASCII-Zeichensatzes sind Steuerzeichen, die auf einem Bildschirm
oder Drucker nicht dargestellt werden. Die Steuerzeichen dienen bei den zeichenorientierten
Übertragungsprotokollen dem reibungslosen Ablauf des Informationsaustausches.
Der 7-Bit-Code wurde von ANSI eingeführt, um Kompatibilität zwischen Datendiensten zu
erreichen. Andere Bezeichnungen für diesen Code sind: IA-5-Alphabet, ISO-7-Bit-Code,
USASCII-Code, CCITT-Code Nr. 5.
Base64
Base64 code
Base64 ist ein abgespeckter ASCII-Zeichensatz, der aus 64 Buchstaben, Ziffern und
Sonderzeichen besteht. Er wird für die Codierung von Binärdaten zur Übertragung von E-Mails
benutzt. Der gesamte Zeichenvorrat umfasst die 26 Großbuchstaben von „A“ bis „Z“, die 26
Kleinbuchstaben „a“ bis „z“, die zehn Ziffern von „0“ bis „9“ und die zwei Sonderzeichen „+“
und „/“.
Baudot-Code
Der Baudot-Code ist der ursprüngliche Zeichensatz für den Fernschreibcode. Er wurde von dem
französischen Ingenieur Jean-Maurice-Émile Baudot (1845 bis 1903) entwickelt und später von
Donald Murray (1865 bis 1945) für alphanumerische Tastaturen weiterentwickelt. Der
ursprüngliche Baudot-Code war für eine Tastatur mit fünf Tasten ausgelegt, die die Wertigkeit
bestimmten und entweder gedrückt oder nicht gedrückt sein konnten. Der sich daraus
ergebende Code war ein 5-Bit-Code dem 32 verschiedene Wertigkeiten zugeordnet waren.
7
Zeichensätze
Baudot-Code
Dieser Code hieß CCITT-1 oder International Alphabet no. 1.
Da mit den 32 Wertigkeiten nicht alle Buchstaben, Zahlen, Satz- und Steuerzeichen
dargestellt werden konnten, arbeitete Baudot mit Doppelbelegung und zwei Schriftsätzen. Auf
dem ersten waren die Buchstaben und die Steuerzeichen für den Wagenrücklauf und den
Zeilenvorschub, auf dem zweiten die Ziffern mit den Interpunktionszeichen. Zwei Wertigkeiten
waren für die Umschaltung Buchstaben/Ziffern und Ziffern/Buchstaben reserviert.
Der spätere von Murray an alphanumerische Tastaturen angepasste Code ist der CCITT-2 oder
das International Alphabet 2.
DBCS, double byte
Ein Double Byte Character Set (DBCS) ist ein Zeichensatz, der alle Zeichen und Ziffern mit 2
character set
Doppelbyte-Zeichensatz
Bytes darstellt. Daraus ergibt sich die Darstellungsmöglichkeit von 256 x 256 verschiedenen
Zeichen, also 65.536. Diese Doppelbyte-Zeichensätze eigenen sich für die Darstellung von
japanischen und chinesischen Schriftzeichen.
8
Zeichensätze
Digit, DGT
Ziffer
Eine Ziffer ist ein Zeichen aus einem für das betreffende Zahlensystem bereitgestellten
Zeichenvorrat. Im Dezimalsystem sind das die Ziffern 0 bis 9, im Hexadezimalsystem die
Ziffern 0 bis 9 und A, B, C, D, E, F, im Binärsystem sind es die „0“ und die „1“.
Eine Zahl wird durch mehrere Ziffern dargestellt. Bei längeren Zahlen fasst man die Ziffern in
Gruppen zusammen und kann diese entsprechend bezeichnen. Bei den Gruppen kann es sich
um Potenzen zur Basis einer Zahl handelt. Eine andere Gruppenbezeichnung basiert auf der
Angabe der Präfixe, die durch Groß- und Kleinbuchstaben die Zehnerpotenzen repräsentieren.
So kann beispielsweise die Zahl 1234000 dargestellt werden als 1,234 x 10exp6 oder als
1,234 Millionen, dessen Präfix das Mega (M) ist.
EBCDIC-Code
EBCDIC, extended binary
Der Extended Binary Coded Decimal Interchange Code (EBCDIC) ist ein erweiterter 8-Bit-Code,
der von IBM entwickelt wurde und in IBM-Mainframes als interner Verarbeitungscode
coded decimal
interchange code
angewendet wird. Er kann ohne Codeumsetzung z.B. mit dem genormten ASCII-Zeichensatz
für die Datenübertragung eingesetzt werden. Der EBCDIC-Code besteht aus Buchstaben,
Ziffern, Steuerzeichen und grafischen Symbolen.
Bei EBCDIC sind die Bytes in einen Zonen- und einen Ziffernteil unterteilt, wobei jedes Byte
in zwei Quadbits oder Nibbles unterteilt ist. Ein Quadbit steht für den Zonenteil, das zweite
für den Ziffernteil. Die darstellbaren Zeichen sind in Gruppen eingeteilt, die Gruppencodierung
erfolgt im Zonenteil. Innerhalb einer Gruppe sind die Zeichen durchnummeriert und werden im
Ziffernteil spezifiziert. Da bei EBCDIC nicht allen 256 Kombinationsmöglichkeiten Buchstaben,
Ziffern oder Zeichen zugeordnet sind, können die nicht belegten Kombinationen für
anwenderspezifische Implementierungen genutzt werden.
Von EBCDIC existieren verschiedene Varianten, die untereinander inkompatibel sind. Die
amerikanische Variante benutzt weitgehend die gleichen Zeichen wie der ASCII-Code. Einige
9
Zeichensätze
Zeichen sind aber in dem
jeweils anderen Code nicht
enthalten.
Eine Umwandlung vom EBCDICCode in ASCII ist nur über
Codiertabellen möglich.
Fernschreibcode
teleprinter code
Der Fernschreibcode ist ein
Datenübertragungscode, bei
dem jeweils fünf Bit ein
Zeichen repräsentieren. Mit fünf
Bit können insgesamt nur 32
(2exp5) unterschiedliche
Zeichen abgebildet werden und
damit nicht das ganze Alphabet
mit 26 Buchstaben und die zehn
Zuordnung der Charkater im EBCDIC-Code
Ziffern von 0 bis 9. Der
darstellbare Zeichenvorrat
wurde daher durch spezielle
Steuerzeichen erweitert. Mit
diesen Steuerzeichen wird der
Zeichensatz von Ziffern auf Buchstaben umgeschaltet. Für die Umschaltung auf Buchstaben
wird das 5-Bit-Zeichen 11111 verwendet, die Umschaltung auf Ziffern erfolgt mit dem
Steuerzeichen 11011. Die Bitkombination 00000 wird nicht verwendet.
10
Zeichensätze
Somit stehen 29 5-Bit-Kombinationen zur Verfügung, die zweifach genutzt werden können,
also insgesamt 58 Ziffern, Buchstaben, Zeichen und Steuerzeichen. Von den 58 möglichen
Zeichen werden 52 benutzt.
Der eigentliche 5-Bit-Code wurde 1871 von Baudot
entwickelt und entspricht dem Fernschreibcode Nr. 1,
CCITT-Code No. 1. Der noch heute in der erweiterten
Form verwendete Fernschreibcode mit 52 Buchstaben,
Ziffern und Zeichen wurde von Donald Murray entwickelt
und heißt Fernschreibcode Nr.2. Dieser Code wird häufig
als Baudot-Code bezeichnet.
IA-5-Alphabet
Das Internationale Alphabet Nummer 2 (IA2) oder
IA2, international
alphabet 2
CCITT-2 ist ein 5-Bit-Code, der für Fernschreiber (Telex)
benutzt wird und alphanumerische Zeichen, Ziffern und
Interpunktions- und Steuerzeichen umfasst. Da ein 5Bit-Code insgesamt 32 verschiedene Zeichen darstellen
kann, arbeitet man beim diesem Fernschreibcode mit
einer Doppelbelegung der Bitkombinationen. Dadurch
können alle Buchstaben von A bis Z, die Ziffern 0 bis 9
und einige Satz- und Steuerzeichen dargestellt werden.
Internationales Telegraphenalphabet Nr. 2,
deutsche Version
Zu den Satzzeichen gehören der Bindestrich (-), das
Fragezeichen (?), die Klammerzeichen, der Punkt (.),
das Komma (,), das Gleichheitszeichen (=), der
Schrägstrich (/) und das Pluszeichen (+). Zu den
11
Zeichensätze
Steuerzeichen die Klingel (BEL), der Wagenrücklauf (CR) und der Zeilenvorschub (LF).
Desweiteren gibt es noch zwei Umschaltzeichen für die Umschaltung von Buchstaben, Ziffern
und Zeichen, die durch Doppelbelegung erreicht wird. Das IA-2-Alphabet ist aus dem BaudotCode hervorgegangen und bekannt als Fernschreibcode Nr. 2.
IA-5-Alphabet
IA5, international
alphabet 5
Internationales Alphabet Nummer 5 nach ITU T.50 (V.4) bzw. nach ISO 646. Ein 7-BitComputer-Code zur Darstellung von insgesamt 128 alphanumerischen Zeichen, Ziffern,
Sonder- und Steuerzeichen, der vom ASCII-Code abgeleitet ist und auf einer gemeinsamen
ISO/ITU-Empfehlung basiert.
Die Codetabelle ist in 15 Zeilen und 8 Spalten unterteilt. Zur Bestimmung eines
alphanumerischen Zeichens oder eines Steuerzeichens können die Zeilen und Spalten in
dezimaler, hexadezimaler oder in binärer Schreibweise dargestellt werden. Man unterscheidet
zwischen Textzeichen (Ziffern, Sonderzeichen) und Steuerzeichen. Aus den Textzeichen werden
die gewünschten Nachrichten geformt, die Steuerzeichen dienen bei älteren
zeichenorientierten Übertragungsprotokollen dem Informationsaustausch.
Diese Steuerzeichen sind in die sechs Funktionsgruppen unterteilt:
Übertragungssteuerzeichen, Formatsteuerzeichen, Gerätesteuerzeichen,
Informationstrennzeichen, Steuerzeichen zur Code-Erweiterung und sonstige Steuerzeichen
unterteilt. Zu der erstgenannten Gruppe den Übertragungssteuerzeichen gehören Start of
Heading (SOH), Start of Text (STX), End of Text (ETX), End of Transmisison (EOT), Enquiry
(ENQ), Acknowledgment (ACK), Data Link Escape (DLE), Negative Acknowledgement (NAK),
Synchronization (SYN) und End of Transmission (ETB). Diese Zeichen dienen ausschließlich
dazu, den Betriebsablauf zwischen zwei oder mehreren Datenstationen zu steuern.
Formatsteuerzeichen Backspace (BS), Horizontal Tabulation (HT), Line Feed (LF), Vertical
12
Zeichensätze
Tabulation (VT), Form Feed
(FF) und Carriage Return (CR)
bestimmen die Anordnung der
übertragenen Daten auf den
Geräten für die Ein- und
Ausgabe.
Gerätesteuerzeichen dienen
dem Ein- und Ausschalten von
Zusatz- und Hilfsgeräten. Es
handelt sich um die Device
Control, mit DC1 bis DC4.
Die Informationstrennzeichen
7-Bit-Code, internationale Version
Unit Separator, End of
Intermediate Transmission
block(US/1TB), Record
Separator (RS), Group
Separator (GS) und File
Separator (FS) sorgen für die logische Gliederung der Daten.
Als Steuerzeichen für die Code-Erweiterung dienen die Zeichen Shift Out (SO), Shift In (SI)
und Escape Character (ESC). Mit diesen Zeichen kann der Vorrat an Schriftzeichen erweitert
und weitere Steuerzeichen gebildet werden. Zu den sonstigen Steuerzeichen gehören Null
(NUL), Bell (BEL), Cancel (CAN), End of Medium (EM), Substitute Character (SUB), Space (SP)
und Delete (DEL).
13
Zeichensätze
Andere Bezeichnungen für das IA-5-Alphabet sind ISO-7-Bit-Code, CCITT-Code Nr. 5, ECMA-7Bit-Code, DIN 66 003-Code, USASCII- oder ASCII-Zeichensatz und internationaler Code zur
Datenübertragung in digitalen Datennetzen.
Den 7-Bit-Code gibt es neben der internationalen Version auch in nationalen Versionen: in
einer deutschen und einer amerikanischen Version, dabei werden bestimmten
Bitkombinationen nationale Sonderzeichen zugeordnet.
Internationales
Telegrafenalphabet
ITA, international
telegraph alphabet
Die internationalen Telegrafenalphabete (ITA) sind von der ITU standardisierte Zeichensätze
mit Buchstaben, Ziffern, Zeichen und Sonderzeichen zur Übertragung von Texten in
öffentlichen Netzen. Es gibt zwei Telegrafenalphabete, das IA-2-Alphabet und das IA-5Alphabet. Neben der Bezeichnung IA-2 und IA-5 findet man auch die Bezeichnung ITC2 für
International Telegraph Code No. 2. Bei dem IA-2-Alphabet handelt es sich um einen 5-BitCode mit 32 Charaktern, der in der klassischen Fernschreibtechnik eingesetzt wurde.
Das IA-5-Alphabet ist ein 7-Bit-Code mit 128 Charaktern.
ISO 8859
Hinter dem ISO-Standard ISO 8859 verbergen sich viele Zeichensatztabellen, die den 8-BitCodierungsbereich zwischen 128 (80) und 255 (FF) benutzen. Unter ISO 8859 sind mehrere
internationale Zeichensätze ebenso wie exotische festgelegt. Mit den einzelnen
Zeichensätzen können nationale Sondercharakter (ä, ö, ü, ß) dargestellt werden, europäische,
internationale und spezielle Schriftzeichen wie kyrillische, griechische, hebräische oder
arabische.
Beim ASCII-Zeichensatz, der die Basis für ISO 8859 bildet, sind 7 Bit codiert. Das entspricht
den 128 Zeichen, die ASCII-Zeichensatz die Plätze 0 bis 127 belegen. Die Positionen 128 bis
255 sind mit diakritischen Zeichen für nationale Zeichensätze und für Sonderzeichen
14
Zeichensätze
reserviert. ISO 8859 hat etwa 15 verschiedene Unternormen und wird ständig erweitert und
aktualisiert.
ISO 8859-1: Latin-1, für Westeuropa, Amerika, Australien, Teile von Afrika.
ISO 8859-2: Latin-2, für Osteuropa.
ISO 8859-3: Latin-3, für Galizien, die Türkei und Spanien.
ISO
ISO
ISO
ISO
ISO
ISO
ISO
8859-4: Latin-4, für das Baltikum.
8859-5: für kyrillisch.
8859-6: für arabisch.
8859-7: für griechisch.
8859-8: für hebräisch.
8859-9: Latin-5, mit türkischen Komponenten.
8859-13: Englisch, Estnisch, Finnisch, Latein, Lettisch, Litauisch, Norwegisch.
Die Zeichencodierung nach ISO 8859 wird in Webanwendungen und in E-Mails benutzt. Der
Zeichensatz wurde bereits 1994 von der European Computer Manufacturers Association
(ECMA) entwickelt.
ISO-Latin-1
ISO-Latin-1 ist ein internationaler 8-Bit-Zeichensatz, der unter ISO 8859 standardisiert ist.
Die 256 Zeichen werden dabei einer Nummer zugeordnet, wobei die ersten 128 Zeichen dem
ASCII-Zeichensatz entsprechen und die weitere 128 für nationale Zeichen reserviert sind.
ISO-Latin-1 ist einer der meistbenutzten Zeichensätze, er wird in Westeuropa, Amerika,
Australien und Teilen von Afrika benutzt.
PC8-Code
Beim PC8-Code handelt es sich um einen ASCII-Zeichensatz, der um ein achtes Bit, das Most
Significant Bit (MSB), erweitert wurde. Der codierbare Darstellungsbereich beträgt dadurch 256
15
Zeichensätze
Zeichen. Die Erweiterung des Zeichensatzes wird für die Codierung von länderspezifischen
Sonderzeichen benutzt.
Beim ASCII-Zeichensatz kann das achte Bit für die Paritätsprüfung benutzt werden. Eine
solche kann allerdings auch mit dem PC8-Code bei der Datenübertragung durchgeführt
werden, wobei der Sender oder der Empfänger das entsprechende Bit bestimmt.
Sonderzeichen
special character
Sonderzeichen sind Schriftzeichen oder grafisches Symbol, die nicht zum Zeichenvorrat
gehören, dessen Zeichen sich direkt mit der Tastatur benutzen lassen. Zu den auf der
Tastatur vorhandenen Sonderzeichen gehören Interpunktionszeichen, eckige und runde
Klammern, mathematische Funktionszeichen, das @- und das Euro-Zeichen.
Der Bestand an gängigen Sonderzeichen kann über die Tastatur oder über Menüfunktionen
aufgerufen werden. Die Windows-Zeichentabellen findet man bei in der Programmgruppe
Zubehör unter Systemprogramme im Startmenü.
Darüber hinaus gibt es branchen-, firmen- und aufgabenspezifische Sonderzeichen, die mit
einem Grafikprogramm gezeichnet und in den Standard-Zeichenvorrat übernommen werden
können.
UCS-Zeichensatz
UCS, universal character
set
Universal Character Set (UCS) ist ein nach ISO 10646 standardisierter Zeichensatz, der 32
Bits, resp. 4 Byte, pro Zeichen hat. Die 4.294.967.296 Möglichkeiten des UCS-Codes bieten
hinreichend Platz für die unterschiedlichsten Sprachen, Zeichen und Bildzeichen. Da dieser
Zeichensatzumfang nicht mehr in einer Codetabelle dargestellt werden kann, ist beim UCSZeichensatz die Sprach- und Zeichenzuordnung in 128 Gruppen, 256 Ebenen, 256 Spalten mit
256 Zellen gegliedert. Mit diesem umfangreichen Adressraum können alle Schriftzeichen in
allen Sprachen abgebildet werden.
16
Zeichensätze
Der UCS-Zeichensatz ist aus dem ASCII-Code und dem Unicode hervorgegangen. Es gibt
verschiedene USC-Codes, so den USC-2, bei dem jedes Zeichen wird durch 2 Byte codiert ist
oder den USC-4, dessen Zeichen aus 4 Byte bestehen. Mit UCS-2 können alle Unicode-Zeichen
dargestellt werden, deren Nummer unter 65.536 liegt. Der USC-4-Code kann insgesamt 128 x
256 x 256 x 256 Zeichen darstellen. Dabei bleibt das erste Bit des ersten Byte ungenutzt,
daher die 128.
Unicode
Der Unicode ist ein internationaler Standard für Zeichensätze, der in Computern für
vielsprachige Textverarbeitung aber auch im Internet für die Codierung von HTML und auch für
neue Internet-Protokolle verwendet wird. Er umfasst Schriftzeichen und Symbole aus den
unterschiedlichsten Kulturen. Entsprechend umfangreich ist die Datenbank für UnicodeZeichen, die etwa 230.000 Zeichen umfasst und eine Reserve von nahezu 1 Million Zeichen
bietet.
Die Entwicklung des Unicodes wird durch das Unicode Consortium vorangetrieben. Die erste
Version ist aus dem Jahr 1990. In einer gewissen Regelmäßigkeit hat das Unicode-Consortium
neue und aktualisierte Versionen vorgestellt. 1991 die Version 1.0, gefolgt von der Version
1.1, 1996 Unicode 2.0, 2000 Unicode 3.0 und 2003 Unicode 4.0.
Unicode 3.0 kann insgesamt 65.536 Zeichen darstellen. Darunter fallen chinesische und
japanische Schriftsätze ebenso wie kyrillische, hebräische, skandinavische, arabische,
griechische u.v.a. Insgesamt kennt Unicode über 50 Schriftsätze aus den exotischsten
Ländern. Darüber hinaus kennt der Unicode über 8.000 Zeichen und Kontrollsymbole. Die
ersten 128 Zeichen von Unicode sind mit ASCII nach ISO 8859 identisch.
In der Version 4.0, die 2003 vorgestellt wurde, erfährt der Unicode eine Erweiterung um 1.226
neue Zeichen gegenüber der Version 3.2. Die Erweiterungen der Version 4.0 umfassen
17
Zeichensätze
Symbole für mathematische,
kaufmännische und technische
Anwendungen. So
beispielsweise Zeichen für
Währungen. Darüber hinaus
gibt es weitere Schriftzeichen
aus dem mittleren Orient und
Südostasien, sowie
Schriftzeichen von
historischen Schriften und
solchen von Indianerschriften.
Unicode kennt verschiedene
Transformationsformate, die
Unicode Transformation
Formats (UTF), mit denen die
Unicode-Zeichensätze für die
Unicode UTF-8 Character Set
Verarbeitung transformiert
werden können. Neben UTF-8,
bei dem ein Zeichen durch ein
Byte dargestellt wird, gibt es UTF-16 und UTF-32.
http://www.unicode.org/
UTF, unicode
transformation format
Die Unicode Transformation Formats (UTF) sind definierte Formate für die Umwandlung des
Unicode für die elektronische Verarbeitung. Mit den UTFs können 16-Bit-Zeichencodes in 8 Bit
18
Zeichensätze
umgewandelt werden. Die Zeichen im UTF-Format belegen eine unterschiedliche Anzahl an
Bytes. Bekannte UTF-Formate sind UTF-7, UTF-8, UTF-16 und UTF-32.
UTF-8, unicode
transformation format 8
Beim Unicode Transformation Format 8 (UTF-8) werden die lateinischen Standardbuchstaben
und Ziffern mit einem Byte codiert, Sonderzeichen und Umlaute mit zwei oder drei Byte. So
werden die 127 Zeichen des ASCII-Zeichensatzes unverändert übernommen, wenn das Most
Significant Bit (MSB) des ersten Byte eine „0“ ist. Beginnt das erste Byte mit einer „1“, dann
handelt es sich um ein Zeichen des Unicode.
Größere Unicode-Zeichen werden aus Byteketten gebildet. Die Reihenfolge der Byteketten
wird durch bestimmte Bitmuster, die zu Beginn des Start-Byte stehen, gekennzeichnet. So
beginnt das erste Byte von zwei Bytes immer mit einer 110-Startkombination, das erste Byte
von drei Bytes mit 1110 und von vier Bytes mit 11110. Die Folge-Bytes beginnen immer mit
einer 10-Kombination. Die Anzahl der Einsen vor der ersten „0“ im ersten Byte kennzeichnet
die Anzahl der Bytes des gesamten Zeichens.
UTF-8 ist in RFC 3629 aus 2003 als „UTF-8, a Transformation Format of ISO 10646 F“
beschrieben. Beim Unicode Transformation Format 8 (UTF-8) werden die lateinischen
Standardbuchstaben und Ziffern mit einem Byte codiert, Sonderzeichen und Umlaute mit zwei
oder drei Byte. So werden die 127 Zeichen des ASCII-Zeichensatzes unverändert
übernommen, wenn das Most Significant Bit (MSB) des ersten Byte eine „0“ ist. Beginnt das
erste Byte mit einer „1“, dann handelt es sich um ein Zeichen des Unicode.
Größere Unicode-Zeichen werden aus Byteketten gebildet. Die Reihenfolge der Byteketten
wird durch bestimmte Bitmuster, die zu Beginn des Start-Byte stehen, gekennzeichnet. So
beginnt das erste Byte von zwei Bytes immer mit einer 110-Startkombination, das erste Byte
von drei Bytes mit 1110 und von vier Bytes mit 11110. Die Folge-Bytes beginnen immer mit
19
Zeichensätze
einer 10-Kombination. Die Anzahl der Einsen vor der ersten „0“ im ersten Byte kennzeichnet
die Anzahl der Bytes des gesamten Zeichens.
UTF-8 ist in RFC 3629 aus 2003 als „UTF-8, a Transformation Format of ISO 10646 F“
beschrieben.
UTF-16, unicode
transformation format 16
Unicode Transformation Format 16 (UTF-16) bildet einen Kompromiss zwischen der Byteaufwendigen Codierung UTF-32 und UTF-8 für die Umsetzung der ASCII-Zeichen. Bei UTF-16
werden die Zeichen mit 2 Byte codiert, wobei für alle Zeichen der Basic Multilingual Plane
(BMP) 2 Byte ausreichen. Reicht der codierbare Zeichenumfang von 65.536 Zeichen nicht aus,
so können für darüber hinaus gehende Zeichen zwei weitere 16-Bit-Werte benutzt werden.
Eine Erweiterung um 32 Bit entspricht sechzehn zusätzlichen 16-Bit-Planes. Wobei eine Plane
einen 16 Bit umfassenden Codebereich darstellt. In der ISO-Terminologie wird der 32-BitBereich in 256 Gruppen mit 256 Ebenen und 256 Reihen mit 256 Zeichen unterteilt. Jede Plane
umfasst spezielle Sonderzeichen für Musik-, Schriften-, Sprachsymbole oder andere
Spezialzeichen.
Für den täglichen Gebrauch in Verbindung mit den gängigen Sprachen reicht die Plane „0“, die
als Basic Multilingual Plane (BMP) bezeichnet wird.
Das auf 16 Bit basierende UTF-16 kommt einigen Betriebsprogrammen wie diverse WindowsVersionen, die mit 16 Bit arbeiten, entgegen.
Zeichen
character
Zeichen werden üblicherweise durch Schrift (Schriftzeichen) wiedergegeben oder technisch z.B.
durch Lochkombinationen, Impulsfolgen und Strombilder verwirklicht. Beispiele für Zeichen
sind die abstrakten Inhalte von Buchstaben des gewöhnlichen Alphabets, Ziffern,
20
Zeichensätze
Interpunktionszeichen, Steuerzeichen und andere Ideogramme. Generell bedeutet ein Zeichen
ein Informationselement, das wiederum aus einer endlichen Zahl vereinbarter Elemente, dem
Zeichenvorrat besteht und üblicherweise durch ein Byte dargestellt wird.
Von alphabetischen Zeichen spricht man, wenn sich der Zeichenvorrat aus den Buchstaben des
Alphabets zusammensetzt.
Setzt sich der Zeichenvorrat aus numerischen Zeichen, alphabetischen Zeichen und
gegebenenfalls Sonderzeichen (z. B. Interpunktionszeichen) zusammen, spricht man von
alphanumerischen Zeichen. Bei der Verwendung von alphanumerischen Zeichen ist zu
beachten, dass zunehmende Darstellungsvielfalt aufwändigere Codes erfordert.
Zeichensatz
CCS, coded character set
Ein Zeichensatz ist der vollständige Vorrat an Zeichen und Ziffern oder Bitrahmen eines
einzelnen Codes. In einem Zeichensatz werden in tabellarischer Form die Zeichen des
Alphabets, die Ziffernsymbole der Zahlen, Satzzeichen, Sonderzeichen und Steuerzeichen
einer Position oder Zahl zugeordnet. Viele Zeichensätze sind von ANSI oder ISO, speziell
unter ISO 8859, international standardisiert und umfassen im Zeichenvorrat länderspezifische
Buchstaben oder Zeichen und, im Falle des ANSI-Code, auch spezielle Steuerzeichen für das
Aufrufen von Grafiken, Animationen, Textblöcken oder Audiosequenzen. Die ISOZeichensatztabelle unter ISO 8859 kennt über zehn Zeichensatzgruppen, mit denen an die
150 Sprachen abgedeckt werden.
Üblicherweise werden die Zeichen eines Zeichensatzes in einem 7- oder 8-Bit-Code
dargestellt, so, dass insgesamt 128 bzw. 256 Kombinationsmöglichkeiten zur
Zeichendarstellung zur Verfügung stehen. Der bekannteste Zeichensatz ist der ASCIIZeichensatz, standardisiert unter ISO-646. Als weitere sind der EBCDIC-Code, der ANSI-Code
und die vielen unter ISO 8859 standardisierten Zeichensätze zu nennen. Zeichensätze dienen
21
Zeichensätze
auch der Anpassung der verschiedenen länderspezifischen Schriftzeichen an die entsprechende
Tastatur. Benötigt ein Zeichensatz mehr als 256 Zeichen, die mit einem 8-Bit-Byte dargestellt
werden können, wie bei den japanischen, koreanischen oder chinesischen Schriftzeichen, dann
werden diese über ein mehr oder weniger komplexes Character Encoding Scheme (CES)
erzeugt.
Ein Zeichensatz hat nichts mit der Schrift und dem Schriftbild zu tun, die über die Schriftart, größe, -fettgrad, das Spacing, den Zeilenabstand, den Zeilenumbruch usw. festgelegt werden.
Zeichenvorrat
character set
Informationen werden durch Zeichen dargestellt. Die Darstellungsmenge an verschiedenen
Zeichen, ist der Zeichenvorrat. Ein Zeichenvorrat ist abhängig von dem verwendeten
Zeichensatz. So gehören beispielsweise alle Buchstaben des lateinischen Alphabets zu dem
entsprechenden Zeichenvorrat. Bei den arabischen Ziffern besteht der Zeichenvorrat aus 10
verschiedenen Zeichen. Ein binärer Zeichenvorrat besteht nur aus zwei Zeichen, der „0“ und
der „1“. Das einzelne Element ist ein Binärzeichen.
Das Ordnungsprinzip eines Zeichenvorrats ist das Alphabet.
22
Impressum
Zeichensätze
Herausgeber
Klaus Lipinski
Datacom-Buchverlag GmbH
84378 Dietersburg
ISBN: 978-3-89238-223-2
Zeichensätze
E-Book, Copyright 2011
Trotz sorgfältiger Recherche wird für die
angegebenen Informationen keine Haftung
übernommen.
Dieses Werk ist unter einem Creative Commons Namensnennung-Keine
kommerzielle Nutzung-Keine Bearbeitung 3.0 Deutschland Lizenzvertrag
lizenziert.
Erlaubt ist die nichtkommerzielle Verbreitung und Vervielfältigung ohne das Werk zu verändern
und unter Nennung des Herausgebers. Sie dürfen dieses
E-Book auf Ihrer Website einbinden, wenn ein Backlink auf www.itwissen.info gesetzt ist.
Layout & Gestaltung: Sebastian Schreiber
Titel: L.jpg - © ivan kmit_Fotolia
Produktion: www.media-schmid.de
Weitere Informationen unter www.itwissen.info
23

Zeichensätze Glossar Zeichensätze

Transcrição

Documentos relacionados

Einleitung Der ASCII-Code ist eine standardisierte Zeichen

Schreibweise von Jahrzehnten

Möbelfakta - Prima Office

Softlux

Bezug Kunstleder Softlux

E DIN EN ISO 1043-1/A1:2015

TME / SF 3000

PP T 20 HI Datenblatt

21 Fehlerbild Oster Witze Wortsuchrätsel Sudoku

EICAR Test File kann ab sofort zur Überprüfung von Anti