ISO/IEC 8859

ISO 8859,全称ISO/IEC 8859,是国际标准化组织(ISO)及国际电工委员会(IEC)联合制定的一系列8位元字符集的标准,现时定义了15个字符集。

引言

ASCII收录了空格及94个“可印刷字符”,足以给英语使用。但是,其他使用拉丁字母的语言(主要是欧洲国家的语言),都有一定数量的附加符号字母,故可以使用ASCII及控制字符以外的区域来储存及表示。

除了使用拉丁字母的语言外,使用西里尔字母的东欧语言、希腊语泰语、现代阿拉伯语希伯来语等,都可以使用这个形式来储存及表示。

1982年,ANSI与ECMA合作开启此项工作。1985年,公布了ECMA-94,即后来的ISO/IEC 8859 parts 1, 2, 3, 4。第5、6、7、8、9、10、11、12、13、14、15、16部分分别公布于1988年、1987年、1987年、1987年、1989年、1992年、2001年、1997年(正式宣布放弃研发)、1998年、1998年、1999年、2001年。

ISO 8859是基于ISO 2022标准的基础上,在ISO 2022规定的G0码位区域表示ISO 646的95个可打印字符;在C0与C1的控制字符码位区域,表示ISO 6429定义的控制字符;而在G1码位区域,则是由ISO 8859的16个部分各自定义扩展的可打印字符。因此,ISO 8859完全兼容7位的ASCII码。ISO 8859没有使用ISO 2022中的G2、G3区域,也不再使用ISO 2022定义的用来在不同的字符编码集或在同一个编码集的G0、G1、G2、G3区域间转换的“控制字符转义序列”。

ISO 8859统一了此前各国各语言的单独编码的混乱局面;废弃了ASCII/ISO 646使用的退格键开始的转义序列来表示变音字母的方法,而是在G1区域直接编码表示变音字母。

ISO 8859是在1980年代中期甚至1990年代才陆续公布的。因此,微软公司与IBM公司等此前已经在其产品,如MS-DOS, IBM PC上使用了各自定义的编码字符集(即“代码页”Codepage)。ISO 8859公布后,也出现了一些广泛使用的代码页兼容并扩充了ISO 8859。例如,Windows代码页1252作为英文及一些西欧语言版Windows操作系统的默认编码(locale),是 ISO 8859-1 的超集。主要扩充之处是把ISO 8859-1 的保留未用的C1区(即码位0x80-0x9F)用来编码一些可打印字符: ƒ ˆ Š Œ Ž ˜ š œ ž Ÿ 共计27个,其中各种引号就有8个。

各种ISO 8859字符集

  • ISO 8859-8-I - 希伯来语(逻辑顺序)

由於英语没有任何重音字母(不计外来词),故可使用以上十五个字集中的任何一个来表示。

至於德语方面,因它除了 A-Z, a-z 外,只用 Ä, Ö, Ü, ä, ö, ß, ü 七个字母,而所有拉丁字集(1-4, 9-10, 13-16)均有此七个字母,故德语可使用以上十个字集中的任何一个来表示。

此系列中没有-12号的原因是,此计划原本要设计成一个包含塞尔特语族字符集的“Latin-7”,但后来塞尔特语族变成了ISO 8859-14 / Latin-8。亦有一说谓-12号本来是预留给印度天城体梵文的,但后来却搁置了。

基本结构

每个字集定义最多96个字母或符号,在0xA0-0xFF根据不同字符集放入不同的字符。

ISO/IEC 8859十五个字符集的比较
BinOctDecHex 123456789101113141516
10100000240160A0 NBSP
10100001241161A1 ¡ĄĦĄЁ¡Ą¡Ą
10100010242162A2 ¢˘˘ĸЂ¢¢Ē¢¢ą
10100011243163A3 £Ł£ŖЃ£££Ģ£££Ł
10100100244164A4 ¤¤¤¤Є¤¤¤Ī¤Ċ
10100101245165A5 ¥ĽĨЅ¥¥Ĩċ¥
10100110246166A6 ¦ŚĤĻІ¦¦¦Ķ¦ŠŠ
10100111247167A7 §§§§Ї§§§§§§§§
10101000250168A8 ¨¨¨¨Ј¨¨¨ĻØšš
10101001251169A9 ©ŠİŠЉ©©©Đ©©©©
10101010252170AA ªŞŞĒЊͺתŠŖªȘ
10101011253171AB «ŤĞĢЋ«««Ŧ«««
10101100254172AC ¬ŹĴŦЌ،¬¬¬Ž¬¬Ź
10101101255173AD ­­­­­­­­­­­­­­
10101110256174AE ®ŽŽЎ®®Ū®®®ź
10101111257175AF ¯ŻŻ¯Џ¯¯ŊÆŸ¯Ż
10110000260176B0 °°°°А°°°°°°°
10110001261177B1 ±ąħąБ±±±ą±±±
10110010262178B2 ²˛²˛В²²²ē²Ġ²Č
10110011263179B3 ³ł³ŗГ³³³ģ³ġ³ł
10110100264180B4 ´´´´Д΄´´īŽŽ
10110101265181B5 µľµĩЕ΅µµĩµµ
10110110266182B6 śĥļЖΆķ
10110111267183B7 ·ˇ·ˇЗ·······
10111000270184B8 ¸¸¸¸ИΈ¸¸ļøžž
10111001271185B9 ¹šıšЙΉ¹¹đ¹¹č
10111010272186BA ºşşēКΊ÷ºšŗºș
10111011273187BB »ťğģЛ؛»»»ŧ»»»
10111100274188BC ¼źĵŧМΌ¼¼ž¼ŒŒ
10111101275189BD ½˝½ŊН½½½½œœ
10111110276190BE ¾žžОΎ¾¾ū¾ŸŸ
10111111277191BF ¿żżŋП؟Ώ¿ŋæ¿ż
11000000300192C0 ÀŔÀĀРΐÀĀĄÀÀÀ
11000001301193C1 ÁÁÁÁСءΑÁÁĮÁÁÁ
11000010302194C2 ÂÂÂÂТآΒÂÂĀÂÂÂ
11000011303195C3 ÃĂÃУأΓÃÃĆÃÃĂ
11000100304196C4 ÄÄÄÄФؤΔÄÄÄÄÄÄ
11000101305197C5 ÅĹĊÅХإΕÅÅÅÅÅĆ
11000110306198C6 ÆĆĈÆЦئΖÆÆĘÆÆÆ
11000111307199C7 ÇÇÇĮЧاΗÇĮĒÇÇÇ
11001000310200C8 ÈČÈČШبΘÈČČÈÈÈ
11001001311201C9 ÉÉÉÉЩةΙÉÉÉÉÉÉ
11001010312202CA ÊĘÊĘЪتΚÊĘŹÊÊÊ
11001011313203CB ËËËËЫثΛËËĖËËË
11001100314204CC ÌĚÌĖЬجΜÌĖĢÌÌÌ
11001101315205CD ÍÍÍÍЭحΝÍÍĶÍÍÍ
11001110316206CE ÎÎÎÎЮخΞÎÎĪÎÎÎ
11001111317207CF ÏĎÏĪЯدΟÏÏĻÏÏÏ
11010000320208D0 ÐĐĐаذΠĞЊŴÐĐ
11010001321209D1 ÑŃÑŅбرΡÑŅŃÑÑŃ
11010010322210D2 ÒŇÒŌвزÒŌŅÒÒÒ
11010011323211D3 ÓÓÓĶгسΣÓÓÓÓÓÓ
11010100324212D4 ÔÔÔÔдشΤÔÔŌÔÔÔ
11010101325213D5 ÕŐĠÕеصΥÕÕÕÕÕŐ
11010110326214D6 ÖÖÖÖжضΦÖÖÖÖÖÖ
11010111327215D7 ××××зطΧ×Ũ×׌
11011000330216D8 ØŘĜØиظΨØØŲØØŰ
11011001331217D9 ÙŮÙŲйعΩÙŲŁÙÙÙ
11011010332218DA ÚÚÚÚкغΪÚÚŚÚÚÚ
11011011333219DB ÛŰÛÛлΫÛÛŪÛÛÛ
11011100334220DC ÜÜÜÜмάÜÜÜÜÜÜ
11011101335221DD ÝÝŬŨнέİÝŻÝÝĘ
11011110336222DE ÞŢŜŪоήŞÞŽŶÞȚ
11011111337223DF ßßßßпίßß฿ßßßß
11100000340224E0 àŕàāрـΰאàāąààà
11100001341225E1 ááááсفαבááįááá
11100010342226E2 ââââтقβגââāâââ
11100011343227E3 ãăãуكγדããćããă
11100100344228E4 ääääфلδהääääää
11100101345229E5 åĺċåхمεוåååååć
11100110346230E6 æćĉæцنζזææęæææ
11100111347231E7 çççįчهηחçįēççç
11101000350232E8 èčèčшوθטèččèèè
11101001351233E9 ééééщىιיéééééé
11101010352234EA êęêęъيκךêęźêêê
11101011353235EB ëëëëыًλכëëėëëë
11101100354236EC ìěìėьٌμלìėģììì
11101101355237ED ííííэٍνםííķííí
11101110356238EE îîîîюَξמîîīîîî
11101111357239EF ïďïīяُοןïïļïïï
11110000360240F0 ðđđِπנğðšŵðđ
11110001361241F1 ñńñņёّρסñņńññń
11110010362242F2 òňòōђْςעòōņòòò
11110011363243F3 óóóķѓσףóóóóóó
11110100364244F4 ôôôôєτפôôōôôô
11110101365245F5 õőġõѕυץõõõõõő
11110110366246F6 ööööіφצöööööö
11110111367247F7 ÷÷÷÷їχק÷ũ÷÷ś
11111000370248F8 øřĝøјψרøøųøøű
11111001371249F9 ùůùųљωשùųłùùù
11111010372250FA úúúúњϊתúúśúúú
11111011373251FB ûűûûћϋûûūûûû
11111100374252FC üüüüќόüüüüüü
11111101375253FD ýýŭũ§ύLRMıýżýýę
11111110376254FE þţŝūўώRLMşþžŷþț
11111111377255FF ÿ···џÿĸÿÿÿ

在0xA0的位置是“不换行空格”。

在0xAD的位置,大部分都放入了“选择性连字号”(即只在一个文字在它的中间换行时才出现的连字号),若你使用的浏览器支援选择性连字号,上表将不会有任何显示。

黄色的是ISO/IEC 8859-7:2003版本及ISO/IEC 8859-8:1999版本新增的符号。LRM是“左至右符号”、RLM是“右至左符号”。

绿色的是该字集未有定义该位置。

0x00-0x1F、0x7F、0x80-0x9F在此字符集中未有定义。(控制字符是由ISO/IEC 6429定义)。

ISO 8859与ISO 8859-n的关系

ISO/IEC 8859-n之中,国际标准化组织只替每个字符集定义了最多96个字符(0xA0-0xFF)。

ISO-8859-n(在ISO与8859之间加上一连字号)则是由IANA根据ISO/IEC 8859-n所定义的编码表。它除了ISO/IEC 8859-n的字符外,还包括ASCII(0x20-0x7E)字符及65个控制字符(0x00-0x1F及0x7F-0x9F)。

类似ISO 8859的编码

ISO 8859-12这个号码本来是预留给印度天城体梵文的,但最终未有定义。印度有自己的编码-ISCII

JIS X 0201日语片假名的字符集标准,能与ISO 8859兼容。

VISCII越南语在本土以外的僑民最常用的字符集标准。但因越南语有超过一百个重音字母,故不兼容ISO 8859。越南國家標準另有符合ISO8859標準的字符集,但字符需要組合,像泰文一樣。

ISO 6438是非洲字母的字符集,但甚少被採納。

发展状况

ISO/IEC 8859 标准由 ISO/IEC 第一联合技术委员会第二分委员会第三工作组(ISO/IEC JTC 1/SC 2/WG 3)管理。2004 年 6 月,第三工作组解散,管理工作移交给第二分委员会。这份标准现在不再更新,因为这个分委员会唯一的工作组——第二工作组,正着力于ISO/IEC 10646的开发。

参看

外部链接

  • 部分由ISO/IEC JTC 1/SC 2/WG 3出版的部分ISO/IEC 8859最后审核草案(PDF版本),可从 WG 3网站 获取:
    • ISO/IEC 8859-1:1998 - 8-bit single-byte coded graphic character sets, Part 1: Latin alphabet No. 1 (draft dated February 12, 1998, published April 15, 1998)
    • ISO/IEC 8859-4:1998 - 8-bit single-byte coded graphic character sets, Part 4: Latin alphabet No. 4 (draft dated February 12, 1998, published July 1, 1998)
    • ISO/IEC 8859-7:1999 - 8-bit single-byte coded graphic character sets, Part 7: Latin/Greek alphabet (draft dated June 10, 1999; superseded by ISO/IEC 8859-7:2003, published October 10, 2003)
    • ISO/IEC 8859-10:1998 - 8-bit single-byte coded graphic character sets, Part 10: Latin alphabet No. 6 (draft dated February 12, 1998, published July 15, 1998)
    • ISO/IEC 8859-11:1999 - 8-bit single-byte coded graphic character sets, Part 11: Latin/Thai character set (draft dated June 22, 1999; superseded by ISO/IEC 8859-11:2001, published Dec 15, 2001)
    • ISO/IEC 8859-13:1998 - 8-bit single-byte coded graphic character sets, Part 13: Latin alphabet No. 7 (draft dated April 15, 1998, published October 15, 1998)
    • ISO/IEC 8859-15:1998 - 8-bit single-byte coded graphic character sets, Part 15: Latin alphabet No. 9 (draft dated August 1, 1997; superseded by ISO/IEC 8859-15:1999, published March 15, 1999)
    • ISO/IEC 8859-16:2000 - 8-bit single-byte coded graphic character sets, Part 16: Latin alphabet No. 10 (draft dated November 15, 1999; superseded by ISO/IEC 8859-16:2001, published July 15, 2001)
  • 中华人民共和国国家标准》制定了5个标准以对应ISO/IEC 8859的字符集
    • GB/T 15273.1-1994 信息处理 八位单字节编码图形字符集 第一部分:拉丁字母一
    • GB/T 15273.2-1995 信息处理 八位单字节编码图形字符集 第二部分:拉丁字母二
    • GB/T 15273.3-1995 信息处理 八位单字节编码图形字符集 第三部分:拉丁字母三
    • GB/T 15273.4-1995 信息处理 八位单字节编码图形字符集 第四部分:拉丁字母四
    • GB/T 15273.7-1996 信息处理 八位单字节编码图形字符集 第七部分:拉丁/希腊字母
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.