Zeichensätze Glossar Zeichensätze
Transcrição
Zeichensätze Glossar Zeichensätze
Zeichensätze Glossar Zeichensätze 1 Index Zeichensätze 1-aus-n-Code IA-5-Alphabet 1-Byte-Zeichensatz Internationales Telegrafenalphabet 7-Bit-Code ISO 8859 8-Bit-Code ISO-Latin-1 Alphabet PC8-Code Alphanumerik Sonderzeichen ANSI-Code UCS-Zeichensatz ASCII-Zeichensatz Unicode Base64, Base64 code UTF, unicode transformation format Baudot-Code UTF-8, unicode transformation format 8 DBCS, double byte character set UTF-16, unicode transformation format 16 Digit Zeichen EBCDIC-Code Zeichensatz Fernschreibcode Zeichenvorrat IA-2-Alphabet Impressum 2 Zeichensätze 1-aus-n-Code 1 out of n code Bei dem 1-aus-n-Code besteht jedes Maschinenwort aus einer „1“. Alle restlichen Stellen sind „0“. Bei diesem Code kommt es zu sehr umfangreichen Wortlängen. So könnte beispielsweise der Buchstabe „A“ dem Maschinenwort 0001 entsprechen, der Buchstabe „B“ dem 0010 und „C“ dem 0100. In der Version 1-aus-10 verschiebt sich das jeweilige Bit in dem zehnstelligen Datenwort vom Least Significant Bit (LSB) für den Dezimalwert 0: 0000000001, zum Most Significant Bit (MSB) für die Ziffer 9: 1000000000. 1-Byte-Zeichensatz SBCS, single byte character set Ein 1-Byte-Zeichensatz, Single Byte Character Set (SBCS), stellt jedes einzelne Zeichen in einem Byte dar. Mit einem solchen Zeichensatz können somit 256 verschiedene Zeichen darstellt werden. 1-Byte-Zeichensätze werden für Buchstaben-, Ziffern- und Steuerzeichen eingesetzt. Häufig sind Doppelbyte-Zeichensätze so aufgebaut, dass sie die Zeichen aus einem 1-Byte-Zeichensatz interpretieren können. Der bekannteste 1-Byte-Zeichensatz ist der ASCII-Zeichensatz. 7-Bit-Code Beim 7-Bit-Code, auch bekannt als IA-5-Alphabet, handelt es sich um den ASCII-Zeichensatz zur Darstellung von insgesamt 128 alphanumerischen Zeichen, Ziffern, Sonder- und Steuerzeichen. Dieser Code wurde international als Referenz-Code unter ISO/IEC 646 standardisiert. Die deutsche Referenz wurde von DIN unter DIN 66003 genormt. Beim 7-Bit-Code wird jedes Zeichen mit 7 Bit dargestellt. Die Zeichen sind in einer Codetabelle gegliedert und sind durch die Spalten- und Zeilennummer festgelegt. Die Nummerierung kann in binärer oder hexadezimaler Schreibweise sein. Wenn der 7-Bit-Code in Bytes dargestellt wird, wird das fehlende achte Bit durch ein Prüfbit ergänzt. 3 Zeichensätze 8-Bit-Code Der 8-Bit-Code basiert auf dem 7-Bit-Code, der um Sprachgruppen erweitert wurde und sich an Weltregionen orientiert. So ist gibt es mit Latein 1 Code-Elemente für die westeuropäischen Sprachen, ebenso wie für Amerika, Australien und Afrika. Latein 2 erfüllt die Anforderungen an die osteuropäischen Sprachen. Des Weiteren gibt es spezielle Code-Elemente für die hebräische, kyrillische, arabische oder andere Sprachen. Beim 8-Bit-Code ist das Byte die kleinste darstellbare Einheit. Mit diesem Coder können 256 Zeichen binär dargestellt werden. Alphabet Ein Alphabet ist ein in vereinbarter Reihenfolge geordneter Zeichenvorrat von unterscheidbaren Zeichen, z.B. Buchstaben, Zeichen, Ziffern und Sonderzeichen. Der Umfang eines solchen Zeichenvorrats ist in der Regel endlich. Als Beispiel sei das lateinische Alphabet angeführt, dessen Buchstaben in einer Ordnungsrelation unterliegen. Alphabete werden als geordnete Zeichensätze in der Informations- und Kommunikationstechnik durch einen Code repräsentiert. Typische Codes für Zeichensätze sind u. a. ASCII, EBCDIC, Unicode, ANSI-Code. Alphanumerik AN, alphanumeric Das Wort Alphanumerik setzt sich zusammen aus Alpha und Numerik. Das Alphabet steht für ein geordnetes Buchstabensystem, die Numerik für Ziffern und Vorzeichen. Als Gattungsbegriff steht Alphanumerik für Buchstaben, Ziffern und Zeichen. Sobald in einem Dokument Buchstaben, Ziffern, Satz- und Sonderzeichen verwendet werden, handelt es sich um Alphanumerik. ANSI-Code Der ANSI-Code ist ein 8-Bit-Code, mit dem insgesamt 256 Zeichen darstellbar sind. Der ANSI-Code umfasst neben dem deutschen Schriftsatz mit Groß- und Kleinbuchstaben, 4 Zeichensätze Buchstaben aus anderen Schriftsätzen, Ziffern und Sonderzeichen sowie spezielle Steuerzeichen für die textliche Bearbeitung, für Drucker und das Aufrufen von Grafiken. Er wurde von der ANSI spezifiziert und unterstützt die Gestaltung von Benutzeroberflächen. ASCII-Zeichensatz Der ASCII-Zeichensatz (American Standard Code for Information Interchange) ist ein von der ASCII, american standard code for information interchange ISO unter ISO/IEC 646 standardisierter Code zur Darstellung von Groß- und Kleinbuchstaben, Ziffern, Sonder- und Steuerzeichen, die einem zweistelligen Zahlencode zugeordnet werden. Jedes Zeichen besteht aus 7 Bit, wodurch insgesamt 128 verschiedene Zeichen darstellbar sind. Dazu gehören Groß- und Kleinbuchstaben, Ziffern und Sonderzeichen. In der erweiterten Version hat der ASCII-Zeichensatz (Extended ASCII) 8 Bits, wodurch weitere 128 Zeichen dargestellt werden können. Dabei kann es sich um alphanumerische Textzeichen, um Sonderzeichen, Steuerzeichen, Symbole oder länderspezifische Zeichen handeln. Das achte Bit wird auch als Paritätsbit benutzt. Die deutsche Version enthält auch Zeichen für Umlaute (DIN 660023). Die ersten 32 Zeichen des ASCII-Zeichensatzes sind Steuerzeichen, die auf einem Bildschirm oder Drucker nicht dargestellt werden. Die Steuerzeichen dienen bei den zeichenorientierten Übertragungsprotokollen dem reibungslosen Ablauf des Informationsaustausches. Der 7-Bit-Code wurde von ANSI eingeführt, um Kompatibilität zwischen Datendiensten zu erreichen. Andere Bezeichnungen für diesen Code sind: IA-5-Alphabet, ISO-7-Bit-Code, USASCII-Code, CCITT-Code Nr. 5. Von der ISO unter ISO/IEC 646 standardisierter Code zur Darstellung von Groß- und Kleinbuchstaben, Ziffern, Sonder- und Steuerzeichen, die einem zweistelligen Zahlencode zugeordnet werden. Jedes Zeichen besteht aus 7 Bit, wodurch insgesamt 128 verschiedene Zeichen darstellbar sind. Dazu gehören Groß- und Kleinbuchstaben, Ziffern und Sonderzeichen. In der erweiterten 5 Zeichensätze 6 Zeichensätze Version hat der ASCII-Zeichensatz (Extended ASCII) 8 Bits, wodurch weitere 128 Zeichen dargestellt werden können. Dabei kann es sich um alphanumerische Textzeichen, um Sonderzeichen, Steuerzeichen, Symbole oder länderspezifische Zeichen handeln. Das achte Bit wird auch als Paritätsbit benutzt. Die deutsche Version enthält auch Zeichen für Umlaute (DIN 660023). Die ersten 32 Zeichen der ASCII-Zeichensatzes sind Steuerzeichen, die auf einem Bildschirm oder Drucker nicht dargestellt werden. Die Steuerzeichen dienen bei den zeichenorientierten Übertragungsprotokollen dem reibungslosen Ablauf des Informationsaustausches. Der 7-Bit-Code wurde von ANSI eingeführt, um Kompatibilität zwischen Datendiensten zu erreichen. Andere Bezeichnungen für diesen Code sind: IA-5-Alphabet, ISO-7-Bit-Code, USASCII-Code, CCITT-Code Nr. 5. Base64 Base64 code Base64 ist ein abgespeckter ASCII-Zeichensatz, der aus 64 Buchstaben, Ziffern und Sonderzeichen besteht. Er wird für die Codierung von Binärdaten zur Übertragung von E-Mails benutzt. Der gesamte Zeichenvorrat umfasst die 26 Großbuchstaben von „A“ bis „Z“, die 26 Kleinbuchstaben „a“ bis „z“, die zehn Ziffern von „0“ bis „9“ und die zwei Sonderzeichen „+“ und „/“. Baudot-Code Der Baudot-Code ist der ursprüngliche Zeichensatz für den Fernschreibcode. Er wurde von dem französischen Ingenieur Jean-Maurice-Émile Baudot (1845 bis 1903) entwickelt und später von Donald Murray (1865 bis 1945) für alphanumerische Tastaturen weiterentwickelt. Der ursprüngliche Baudot-Code war für eine Tastatur mit fünf Tasten ausgelegt, die die Wertigkeit bestimmten und entweder gedrückt oder nicht gedrückt sein konnten. Der sich daraus ergebende Code war ein 5-Bit-Code dem 32 verschiedene Wertigkeiten zugeordnet waren. 7 Zeichensätze Baudot-Code Dieser Code hieß CCITT-1 oder International Alphabet no. 1. Da mit den 32 Wertigkeiten nicht alle Buchstaben, Zahlen, Satz- und Steuerzeichen dargestellt werden konnten, arbeitete Baudot mit Doppelbelegung und zwei Schriftsätzen. Auf dem ersten waren die Buchstaben und die Steuerzeichen für den Wagenrücklauf und den Zeilenvorschub, auf dem zweiten die Ziffern mit den Interpunktionszeichen. Zwei Wertigkeiten waren für die Umschaltung Buchstaben/Ziffern und Ziffern/Buchstaben reserviert. Der spätere von Murray an alphanumerische Tastaturen angepasste Code ist der CCITT-2 oder das International Alphabet 2. DBCS, double byte Ein Double Byte Character Set (DBCS) ist ein Zeichensatz, der alle Zeichen und Ziffern mit 2 character set Doppelbyte-Zeichensatz Bytes darstellt. Daraus ergibt sich die Darstellungsmöglichkeit von 256 x 256 verschiedenen Zeichen, also 65.536. Diese Doppelbyte-Zeichensätze eigenen sich für die Darstellung von japanischen und chinesischen Schriftzeichen. 8 Zeichensätze Digit, DGT Ziffer Eine Ziffer ist ein Zeichen aus einem für das betreffende Zahlensystem bereitgestellten Zeichenvorrat. Im Dezimalsystem sind das die Ziffern 0 bis 9, im Hexadezimalsystem die Ziffern 0 bis 9 und A, B, C, D, E, F, im Binärsystem sind es die „0“ und die „1“. Eine Zahl wird durch mehrere Ziffern dargestellt. Bei längeren Zahlen fasst man die Ziffern in Gruppen zusammen und kann diese entsprechend bezeichnen. Bei den Gruppen kann es sich um Potenzen zur Basis einer Zahl handelt. Eine andere Gruppenbezeichnung basiert auf der Angabe der Präfixe, die durch Groß- und Kleinbuchstaben die Zehnerpotenzen repräsentieren. So kann beispielsweise die Zahl 1234000 dargestellt werden als 1,234 x 10exp6 oder als 1,234 Millionen, dessen Präfix das Mega (M) ist. EBCDIC-Code EBCDIC, extended binary Der Extended Binary Coded Decimal Interchange Code (EBCDIC) ist ein erweiterter 8-Bit-Code, der von IBM entwickelt wurde und in IBM-Mainframes als interner Verarbeitungscode coded decimal interchange code angewendet wird. Er kann ohne Codeumsetzung z.B. mit dem genormten ASCII-Zeichensatz für die Datenübertragung eingesetzt werden. Der EBCDIC-Code besteht aus Buchstaben, Ziffern, Steuerzeichen und grafischen Symbolen. Bei EBCDIC sind die Bytes in einen Zonen- und einen Ziffernteil unterteilt, wobei jedes Byte in zwei Quadbits oder Nibbles unterteilt ist. Ein Quadbit steht für den Zonenteil, das zweite für den Ziffernteil. Die darstellbaren Zeichen sind in Gruppen eingeteilt, die Gruppencodierung erfolgt im Zonenteil. Innerhalb einer Gruppe sind die Zeichen durchnummeriert und werden im Ziffernteil spezifiziert. Da bei EBCDIC nicht allen 256 Kombinationsmöglichkeiten Buchstaben, Ziffern oder Zeichen zugeordnet sind, können die nicht belegten Kombinationen für anwenderspezifische Implementierungen genutzt werden. Von EBCDIC existieren verschiedene Varianten, die untereinander inkompatibel sind. Die amerikanische Variante benutzt weitgehend die gleichen Zeichen wie der ASCII-Code. Einige 9 Zeichensätze Zeichen sind aber in dem jeweils anderen Code nicht enthalten. Eine Umwandlung vom EBCDICCode in ASCII ist nur über Codiertabellen möglich. Fernschreibcode teleprinter code Der Fernschreibcode ist ein Datenübertragungscode, bei dem jeweils fünf Bit ein Zeichen repräsentieren. Mit fünf Bit können insgesamt nur 32 (2exp5) unterschiedliche Zeichen abgebildet werden und damit nicht das ganze Alphabet mit 26 Buchstaben und die zehn Zuordnung der Charkater im EBCDIC-Code Ziffern von 0 bis 9. Der darstellbare Zeichenvorrat wurde daher durch spezielle Steuerzeichen erweitert. Mit diesen Steuerzeichen wird der Zeichensatz von Ziffern auf Buchstaben umgeschaltet. Für die Umschaltung auf Buchstaben wird das 5-Bit-Zeichen 11111 verwendet, die Umschaltung auf Ziffern erfolgt mit dem Steuerzeichen 11011. Die Bitkombination 00000 wird nicht verwendet. 10 Zeichensätze Somit stehen 29 5-Bit-Kombinationen zur Verfügung, die zweifach genutzt werden können, also insgesamt 58 Ziffern, Buchstaben, Zeichen und Steuerzeichen. Von den 58 möglichen Zeichen werden 52 benutzt. Der eigentliche 5-Bit-Code wurde 1871 von Baudot entwickelt und entspricht dem Fernschreibcode Nr. 1, CCITT-Code No. 1. Der noch heute in der erweiterten Form verwendete Fernschreibcode mit 52 Buchstaben, Ziffern und Zeichen wurde von Donald Murray entwickelt und heißt Fernschreibcode Nr.2. Dieser Code wird häufig als Baudot-Code bezeichnet. IA-5-Alphabet Das Internationale Alphabet Nummer 2 (IA2) oder IA2, international alphabet 2 CCITT-2 ist ein 5-Bit-Code, der für Fernschreiber (Telex) benutzt wird und alphanumerische Zeichen, Ziffern und Interpunktions- und Steuerzeichen umfasst. Da ein 5Bit-Code insgesamt 32 verschiedene Zeichen darstellen kann, arbeitet man beim diesem Fernschreibcode mit einer Doppelbelegung der Bitkombinationen. Dadurch können alle Buchstaben von A bis Z, die Ziffern 0 bis 9 und einige Satz- und Steuerzeichen dargestellt werden. Internationales Telegraphenalphabet Nr. 2, deutsche Version Zu den Satzzeichen gehören der Bindestrich (-), das Fragezeichen (?), die Klammerzeichen, der Punkt (.), das Komma (,), das Gleichheitszeichen (=), der Schrägstrich (/) und das Pluszeichen (+). Zu den 11 Zeichensätze Steuerzeichen die Klingel (BEL), der Wagenrücklauf (CR) und der Zeilenvorschub (LF). Desweiteren gibt es noch zwei Umschaltzeichen für die Umschaltung von Buchstaben, Ziffern und Zeichen, die durch Doppelbelegung erreicht wird. Das IA-2-Alphabet ist aus dem BaudotCode hervorgegangen und bekannt als Fernschreibcode Nr. 2. IA-5-Alphabet IA5, international alphabet 5 Internationales Alphabet Nummer 5 nach ITU T.50 (V.4) bzw. nach ISO 646. Ein 7-BitComputer-Code zur Darstellung von insgesamt 128 alphanumerischen Zeichen, Ziffern, Sonder- und Steuerzeichen, der vom ASCII-Code abgeleitet ist und auf einer gemeinsamen ISO/ITU-Empfehlung basiert. Die Codetabelle ist in 15 Zeilen und 8 Spalten unterteilt. Zur Bestimmung eines alphanumerischen Zeichens oder eines Steuerzeichens können die Zeilen und Spalten in dezimaler, hexadezimaler oder in binärer Schreibweise dargestellt werden. Man unterscheidet zwischen Textzeichen (Ziffern, Sonderzeichen) und Steuerzeichen. Aus den Textzeichen werden die gewünschten Nachrichten geformt, die Steuerzeichen dienen bei älteren zeichenorientierten Übertragungsprotokollen dem Informationsaustausch. Diese Steuerzeichen sind in die sechs Funktionsgruppen unterteilt: Übertragungssteuerzeichen, Formatsteuerzeichen, Gerätesteuerzeichen, Informationstrennzeichen, Steuerzeichen zur Code-Erweiterung und sonstige Steuerzeichen unterteilt. Zu der erstgenannten Gruppe den Übertragungssteuerzeichen gehören Start of Heading (SOH), Start of Text (STX), End of Text (ETX), End of Transmisison (EOT), Enquiry (ENQ), Acknowledgment (ACK), Data Link Escape (DLE), Negative Acknowledgement (NAK), Synchronization (SYN) und End of Transmission (ETB). Diese Zeichen dienen ausschließlich dazu, den Betriebsablauf zwischen zwei oder mehreren Datenstationen zu steuern. Formatsteuerzeichen Backspace (BS), Horizontal Tabulation (HT), Line Feed (LF), Vertical 12 Zeichensätze Tabulation (VT), Form Feed (FF) und Carriage Return (CR) bestimmen die Anordnung der übertragenen Daten auf den Geräten für die Ein- und Ausgabe. Gerätesteuerzeichen dienen dem Ein- und Ausschalten von Zusatz- und Hilfsgeräten. Es handelt sich um die Device Control, mit DC1 bis DC4. Die Informationstrennzeichen 7-Bit-Code, internationale Version Unit Separator, End of Intermediate Transmission block(US/1TB), Record Separator (RS), Group Separator (GS) und File Separator (FS) sorgen für die logische Gliederung der Daten. Als Steuerzeichen für die Code-Erweiterung dienen die Zeichen Shift Out (SO), Shift In (SI) und Escape Character (ESC). Mit diesen Zeichen kann der Vorrat an Schriftzeichen erweitert und weitere Steuerzeichen gebildet werden. Zu den sonstigen Steuerzeichen gehören Null (NUL), Bell (BEL), Cancel (CAN), End of Medium (EM), Substitute Character (SUB), Space (SP) und Delete (DEL). 13 Zeichensätze Andere Bezeichnungen für das IA-5-Alphabet sind ISO-7-Bit-Code, CCITT-Code Nr. 5, ECMA-7Bit-Code, DIN 66 003-Code, USASCII- oder ASCII-Zeichensatz und internationaler Code zur Datenübertragung in digitalen Datennetzen. Den 7-Bit-Code gibt es neben der internationalen Version auch in nationalen Versionen: in einer deutschen und einer amerikanischen Version, dabei werden bestimmten Bitkombinationen nationale Sonderzeichen zugeordnet. Internationales Telegrafenalphabet ITA, international telegraph alphabet Die internationalen Telegrafenalphabete (ITA) sind von der ITU standardisierte Zeichensätze mit Buchstaben, Ziffern, Zeichen und Sonderzeichen zur Übertragung von Texten in öffentlichen Netzen. Es gibt zwei Telegrafenalphabete, das IA-2-Alphabet und das IA-5Alphabet. Neben der Bezeichnung IA-2 und IA-5 findet man auch die Bezeichnung ITC2 für International Telegraph Code No. 2. Bei dem IA-2-Alphabet handelt es sich um einen 5-BitCode mit 32 Charaktern, der in der klassischen Fernschreibtechnik eingesetzt wurde. Das IA-5-Alphabet ist ein 7-Bit-Code mit 128 Charaktern. ISO 8859 Hinter dem ISO-Standard ISO 8859 verbergen sich viele Zeichensatztabellen, die den 8-BitCodierungsbereich zwischen 128 (80) und 255 (FF) benutzen. Unter ISO 8859 sind mehrere internationale Zeichensätze ebenso wie exotische festgelegt. Mit den einzelnen Zeichensätzen können nationale Sondercharakter (ä, ö, ü, ß) dargestellt werden, europäische, internationale und spezielle Schriftzeichen wie kyrillische, griechische, hebräische oder arabische. Beim ASCII-Zeichensatz, der die Basis für ISO 8859 bildet, sind 7 Bit codiert. Das entspricht den 128 Zeichen, die ASCII-Zeichensatz die Plätze 0 bis 127 belegen. Die Positionen 128 bis 255 sind mit diakritischen Zeichen für nationale Zeichensätze und für Sonderzeichen 14 Zeichensätze reserviert. ISO 8859 hat etwa 15 verschiedene Unternormen und wird ständig erweitert und aktualisiert. ISO 8859-1: Latin-1, für Westeuropa, Amerika, Australien, Teile von Afrika. ISO 8859-2: Latin-2, für Osteuropa. ISO 8859-3: Latin-3, für Galizien, die Türkei und Spanien. ISO ISO ISO ISO ISO ISO ISO 8859-4: Latin-4, für das Baltikum. 8859-5: für kyrillisch. 8859-6: für arabisch. 8859-7: für griechisch. 8859-8: für hebräisch. 8859-9: Latin-5, mit türkischen Komponenten. 8859-13: Englisch, Estnisch, Finnisch, Latein, Lettisch, Litauisch, Norwegisch. Die Zeichencodierung nach ISO 8859 wird in Webanwendungen und in E-Mails benutzt. Der Zeichensatz wurde bereits 1994 von der European Computer Manufacturers Association (ECMA) entwickelt. ISO-Latin-1 ISO-Latin-1 ist ein internationaler 8-Bit-Zeichensatz, der unter ISO 8859 standardisiert ist. Die 256 Zeichen werden dabei einer Nummer zugeordnet, wobei die ersten 128 Zeichen dem ASCII-Zeichensatz entsprechen und die weitere 128 für nationale Zeichen reserviert sind. ISO-Latin-1 ist einer der meistbenutzten Zeichensätze, er wird in Westeuropa, Amerika, Australien und Teilen von Afrika benutzt. PC8-Code Beim PC8-Code handelt es sich um einen ASCII-Zeichensatz, der um ein achtes Bit, das Most Significant Bit (MSB), erweitert wurde. Der codierbare Darstellungsbereich beträgt dadurch 256 15 Zeichensätze Zeichen. Die Erweiterung des Zeichensatzes wird für die Codierung von länderspezifischen Sonderzeichen benutzt. Beim ASCII-Zeichensatz kann das achte Bit für die Paritätsprüfung benutzt werden. Eine solche kann allerdings auch mit dem PC8-Code bei der Datenübertragung durchgeführt werden, wobei der Sender oder der Empfänger das entsprechende Bit bestimmt. Sonderzeichen special character Sonderzeichen sind Schriftzeichen oder grafisches Symbol, die nicht zum Zeichenvorrat gehören, dessen Zeichen sich direkt mit der Tastatur benutzen lassen. Zu den auf der Tastatur vorhandenen Sonderzeichen gehören Interpunktionszeichen, eckige und runde Klammern, mathematische Funktionszeichen, das @- und das Euro-Zeichen. Der Bestand an gängigen Sonderzeichen kann über die Tastatur oder über Menüfunktionen aufgerufen werden. Die Windows-Zeichentabellen findet man bei in der Programmgruppe Zubehör unter Systemprogramme im Startmenü. Darüber hinaus gibt es branchen-, firmen- und aufgabenspezifische Sonderzeichen, die mit einem Grafikprogramm gezeichnet und in den Standard-Zeichenvorrat übernommen werden können. UCS-Zeichensatz UCS, universal character set Universal Character Set (UCS) ist ein nach ISO 10646 standardisierter Zeichensatz, der 32 Bits, resp. 4 Byte, pro Zeichen hat. Die 4.294.967.296 Möglichkeiten des UCS-Codes bieten hinreichend Platz für die unterschiedlichsten Sprachen, Zeichen und Bildzeichen. Da dieser Zeichensatzumfang nicht mehr in einer Codetabelle dargestellt werden kann, ist beim UCSZeichensatz die Sprach- und Zeichenzuordnung in 128 Gruppen, 256 Ebenen, 256 Spalten mit 256 Zellen gegliedert. Mit diesem umfangreichen Adressraum können alle Schriftzeichen in allen Sprachen abgebildet werden. 16 Zeichensätze Der UCS-Zeichensatz ist aus dem ASCII-Code und dem Unicode hervorgegangen. Es gibt verschiedene USC-Codes, so den USC-2, bei dem jedes Zeichen wird durch 2 Byte codiert ist oder den USC-4, dessen Zeichen aus 4 Byte bestehen. Mit UCS-2 können alle Unicode-Zeichen dargestellt werden, deren Nummer unter 65.536 liegt. Der USC-4-Code kann insgesamt 128 x 256 x 256 x 256 Zeichen darstellen. Dabei bleibt das erste Bit des ersten Byte ungenutzt, daher die 128. Unicode Der Unicode ist ein internationaler Standard für Zeichensätze, der in Computern für vielsprachige Textverarbeitung aber auch im Internet für die Codierung von HTML und auch für neue Internet-Protokolle verwendet wird. Er umfasst Schriftzeichen und Symbole aus den unterschiedlichsten Kulturen. Entsprechend umfangreich ist die Datenbank für UnicodeZeichen, die etwa 230.000 Zeichen umfasst und eine Reserve von nahezu 1 Million Zeichen bietet. Die Entwicklung des Unicodes wird durch das Unicode Consortium vorangetrieben. Die erste Version ist aus dem Jahr 1990. In einer gewissen Regelmäßigkeit hat das Unicode-Consortium neue und aktualisierte Versionen vorgestellt. 1991 die Version 1.0, gefolgt von der Version 1.1, 1996 Unicode 2.0, 2000 Unicode 3.0 und 2003 Unicode 4.0. Unicode 3.0 kann insgesamt 65.536 Zeichen darstellen. Darunter fallen chinesische und japanische Schriftsätze ebenso wie kyrillische, hebräische, skandinavische, arabische, griechische u.v.a. Insgesamt kennt Unicode über 50 Schriftsätze aus den exotischsten Ländern. Darüber hinaus kennt der Unicode über 8.000 Zeichen und Kontrollsymbole. Die ersten 128 Zeichen von Unicode sind mit ASCII nach ISO 8859 identisch. In der Version 4.0, die 2003 vorgestellt wurde, erfährt der Unicode eine Erweiterung um 1.226 neue Zeichen gegenüber der Version 3.2. Die Erweiterungen der Version 4.0 umfassen 17 Zeichensätze Symbole für mathematische, kaufmännische und technische Anwendungen. So beispielsweise Zeichen für Währungen. Darüber hinaus gibt es weitere Schriftzeichen aus dem mittleren Orient und Südostasien, sowie Schriftzeichen von historischen Schriften und solchen von Indianerschriften. Unicode kennt verschiedene Transformationsformate, die Unicode Transformation Formats (UTF), mit denen die Unicode-Zeichensätze für die Unicode UTF-8 Character Set Verarbeitung transformiert werden können. Neben UTF-8, bei dem ein Zeichen durch ein Byte dargestellt wird, gibt es UTF-16 und UTF-32. http://www.unicode.org/ UTF, unicode transformation format Die Unicode Transformation Formats (UTF) sind definierte Formate für die Umwandlung des Unicode für die elektronische Verarbeitung. Mit den UTFs können 16-Bit-Zeichencodes in 8 Bit 18 Zeichensätze umgewandelt werden. Die Zeichen im UTF-Format belegen eine unterschiedliche Anzahl an Bytes. Bekannte UTF-Formate sind UTF-7, UTF-8, UTF-16 und UTF-32. UTF-8, unicode transformation format 8 Beim Unicode Transformation Format 8 (UTF-8) werden die lateinischen Standardbuchstaben und Ziffern mit einem Byte codiert, Sonderzeichen und Umlaute mit zwei oder drei Byte. So werden die 127 Zeichen des ASCII-Zeichensatzes unverändert übernommen, wenn das Most Significant Bit (MSB) des ersten Byte eine „0“ ist. Beginnt das erste Byte mit einer „1“, dann handelt es sich um ein Zeichen des Unicode. Größere Unicode-Zeichen werden aus Byteketten gebildet. Die Reihenfolge der Byteketten wird durch bestimmte Bitmuster, die zu Beginn des Start-Byte stehen, gekennzeichnet. So beginnt das erste Byte von zwei Bytes immer mit einer 110-Startkombination, das erste Byte von drei Bytes mit 1110 und von vier Bytes mit 11110. Die Folge-Bytes beginnen immer mit einer 10-Kombination. Die Anzahl der Einsen vor der ersten „0“ im ersten Byte kennzeichnet die Anzahl der Bytes des gesamten Zeichens. UTF-8 ist in RFC 3629 aus 2003 als „UTF-8, a Transformation Format of ISO 10646 F“ beschrieben. Beim Unicode Transformation Format 8 (UTF-8) werden die lateinischen Standardbuchstaben und Ziffern mit einem Byte codiert, Sonderzeichen und Umlaute mit zwei oder drei Byte. So werden die 127 Zeichen des ASCII-Zeichensatzes unverändert übernommen, wenn das Most Significant Bit (MSB) des ersten Byte eine „0“ ist. Beginnt das erste Byte mit einer „1“, dann handelt es sich um ein Zeichen des Unicode. Größere Unicode-Zeichen werden aus Byteketten gebildet. Die Reihenfolge der Byteketten wird durch bestimmte Bitmuster, die zu Beginn des Start-Byte stehen, gekennzeichnet. So beginnt das erste Byte von zwei Bytes immer mit einer 110-Startkombination, das erste Byte von drei Bytes mit 1110 und von vier Bytes mit 11110. Die Folge-Bytes beginnen immer mit 19 Zeichensätze einer 10-Kombination. Die Anzahl der Einsen vor der ersten „0“ im ersten Byte kennzeichnet die Anzahl der Bytes des gesamten Zeichens. UTF-8 ist in RFC 3629 aus 2003 als „UTF-8, a Transformation Format of ISO 10646 F“ beschrieben. UTF-16, unicode transformation format 16 Unicode Transformation Format 16 (UTF-16) bildet einen Kompromiss zwischen der Byteaufwendigen Codierung UTF-32 und UTF-8 für die Umsetzung der ASCII-Zeichen. Bei UTF-16 werden die Zeichen mit 2 Byte codiert, wobei für alle Zeichen der Basic Multilingual Plane (BMP) 2 Byte ausreichen. Reicht der codierbare Zeichenumfang von 65.536 Zeichen nicht aus, so können für darüber hinaus gehende Zeichen zwei weitere 16-Bit-Werte benutzt werden. Eine Erweiterung um 32 Bit entspricht sechzehn zusätzlichen 16-Bit-Planes. Wobei eine Plane einen 16 Bit umfassenden Codebereich darstellt. In der ISO-Terminologie wird der 32-BitBereich in 256 Gruppen mit 256 Ebenen und 256 Reihen mit 256 Zeichen unterteilt. Jede Plane umfasst spezielle Sonderzeichen für Musik-, Schriften-, Sprachsymbole oder andere Spezialzeichen. Für den täglichen Gebrauch in Verbindung mit den gängigen Sprachen reicht die Plane „0“, die als Basic Multilingual Plane (BMP) bezeichnet wird. Das auf 16 Bit basierende UTF-16 kommt einigen Betriebsprogrammen wie diverse WindowsVersionen, die mit 16 Bit arbeiten, entgegen. Zeichen character Zeichen werden üblicherweise durch Schrift (Schriftzeichen) wiedergegeben oder technisch z.B. durch Lochkombinationen, Impulsfolgen und Strombilder verwirklicht. Beispiele für Zeichen sind die abstrakten Inhalte von Buchstaben des gewöhnlichen Alphabets, Ziffern, 20 Zeichensätze Interpunktionszeichen, Steuerzeichen und andere Ideogramme. Generell bedeutet ein Zeichen ein Informationselement, das wiederum aus einer endlichen Zahl vereinbarter Elemente, dem Zeichenvorrat besteht und üblicherweise durch ein Byte dargestellt wird. Von alphabetischen Zeichen spricht man, wenn sich der Zeichenvorrat aus den Buchstaben des Alphabets zusammensetzt. Setzt sich der Zeichenvorrat aus numerischen Zeichen, alphabetischen Zeichen und gegebenenfalls Sonderzeichen (z. B. Interpunktionszeichen) zusammen, spricht man von alphanumerischen Zeichen. Bei der Verwendung von alphanumerischen Zeichen ist zu beachten, dass zunehmende Darstellungsvielfalt aufwändigere Codes erfordert. Zeichensatz CCS, coded character set Ein Zeichensatz ist der vollständige Vorrat an Zeichen und Ziffern oder Bitrahmen eines einzelnen Codes. In einem Zeichensatz werden in tabellarischer Form die Zeichen des Alphabets, die Ziffernsymbole der Zahlen, Satzzeichen, Sonderzeichen und Steuerzeichen einer Position oder Zahl zugeordnet. Viele Zeichensätze sind von ANSI oder ISO, speziell unter ISO 8859, international standardisiert und umfassen im Zeichenvorrat länderspezifische Buchstaben oder Zeichen und, im Falle des ANSI-Code, auch spezielle Steuerzeichen für das Aufrufen von Grafiken, Animationen, Textblöcken oder Audiosequenzen. Die ISOZeichensatztabelle unter ISO 8859 kennt über zehn Zeichensatzgruppen, mit denen an die 150 Sprachen abgedeckt werden. Üblicherweise werden die Zeichen eines Zeichensatzes in einem 7- oder 8-Bit-Code dargestellt, so, dass insgesamt 128 bzw. 256 Kombinationsmöglichkeiten zur Zeichendarstellung zur Verfügung stehen. Der bekannteste Zeichensatz ist der ASCIIZeichensatz, standardisiert unter ISO-646. Als weitere sind der EBCDIC-Code, der ANSI-Code und die vielen unter ISO 8859 standardisierten Zeichensätze zu nennen. Zeichensätze dienen 21 Zeichensätze auch der Anpassung der verschiedenen länderspezifischen Schriftzeichen an die entsprechende Tastatur. Benötigt ein Zeichensatz mehr als 256 Zeichen, die mit einem 8-Bit-Byte dargestellt werden können, wie bei den japanischen, koreanischen oder chinesischen Schriftzeichen, dann werden diese über ein mehr oder weniger komplexes Character Encoding Scheme (CES) erzeugt. Ein Zeichensatz hat nichts mit der Schrift und dem Schriftbild zu tun, die über die Schriftart, größe, -fettgrad, das Spacing, den Zeilenabstand, den Zeilenumbruch usw. festgelegt werden. Zeichenvorrat character set Informationen werden durch Zeichen dargestellt. Die Darstellungsmenge an verschiedenen Zeichen, ist der Zeichenvorrat. Ein Zeichenvorrat ist abhängig von dem verwendeten Zeichensatz. So gehören beispielsweise alle Buchstaben des lateinischen Alphabets zu dem entsprechenden Zeichenvorrat. Bei den arabischen Ziffern besteht der Zeichenvorrat aus 10 verschiedenen Zeichen. Ein binärer Zeichenvorrat besteht nur aus zwei Zeichen, der „0“ und der „1“. Das einzelne Element ist ein Binärzeichen. Das Ordnungsprinzip eines Zeichenvorrats ist das Alphabet. 22 Impressum Zeichensätze Herausgeber Klaus Lipinski Datacom-Buchverlag GmbH 84378 Dietersburg ISBN: 978-3-89238-223-2 Zeichensätze E-Book, Copyright 2011 Trotz sorgfältiger Recherche wird für die angegebenen Informationen keine Haftung übernommen. Dieses Werk ist unter einem Creative Commons Namensnennung-Keine kommerzielle Nutzung-Keine Bearbeitung 3.0 Deutschland Lizenzvertrag lizenziert. Erlaubt ist die nichtkommerzielle Verbreitung und Vervielfältigung ohne das Werk zu verändern und unter Nennung des Herausgebers. Sie dürfen dieses E-Book auf Ihrer Website einbinden, wenn ein Backlink auf www.itwissen.info gesetzt ist. Layout & Gestaltung: Sebastian Schreiber Titel: L.jpg - © ivan kmit_Fotolia Produktion: www.media-schmid.de Weitere Informationen unter www.itwissen.info 23