2010年2月12日星期五

About ISO8859

ISO8859 字符集与编码

ISO 8859,全称ISO/IEC 8859,是国际标准化组织(ISO)及国际电工委员会(IEC)联合制定的一系列8字符集的标准,现时定义了15个字符集。ISO8859 不是一个标准,而是一系列的标准,这套字符集与编码系统的共同特色是,以同样的码位对应不同字符集。其基本精神是:

1.与 ASCII 相容,所以所有的低位(0—6位)皆不使用,即为ascii码表示.
2.高位中的前 32 个码位 (0x80 -- 0x9F 或 128--159),保留给扩充定义的 32 个控制码,称为 C1 控制码 (0--31 称为 C0 控制码)。
3.高位中第 33 个码位 (0xA0 或 160),也就是对应 ASCII 中 SP (空格) 的码位,总是代表 Non-breakable space(nbsp),也就是不准许折行的空格。
4.每个字符集定义至多 95 个字符,其码位都在 0xA1 -- 0xFF 或 161--255。
5.每个字符集收录欧洲某地区的共同常用字符。

  ISO8859-1 字符集,也就是 Latin-1,是西欧常用字符,包括德法两国的字母。
  ISO8859-2 字符集,也称为 Latin-2,收集了东欧字符。
  ISO8859-3 字符集,也称为 Latin-3,收集了南欧字符。
  ISO8859-4 字符集,也称为 Latin-4,收集了北欧字符。
  ISO8859-5 字符集,也称为 Cyrillic,收集了斯拉夫语系字符。
  ISO8859-6 字符集,也称为 Arabic,收集了阿拉伯语系字符。
  ISO8859-7 字符集,也称为 Greek,收集了希腊字符。
  ISO8859-8 字符集,也称为 Hebrew,收集了西伯莱 (犹太人) 字符。
  ISO8859-9 字符集,也称为 Latin-5 或 Turkish,收集了土耳其字符。
  ISO8859-10 字符集,也称为 Latin-6 或 Nordic,收集了北欧 (主要指斯堪地那维亚半岛) 的字符。
  ISO8859-11 字符集,也称为 Thai,它是从泰国的 TIS620 标准字符集演化而来。
  目前尚未定义 ISO8859-12 字符集。
  ISO8859-13 字符集,也称为 Latin-7,主要函盖波罗的海 (Baltic) 诸国的文字符号,也补充一些在 Latin-6 中遗漏的拉脱维亚 (Latvian) 字符。
  ISO8859-14 字符集,也称为 Latin-8,它将 Latin-1 中的某些符号换成塞尔特语 (Celtic) 的字符。塞尔特族是指英伦外围的威尔斯人 (Welsh) 和盖尔人 (Gaelic)。
  ISO8859-15 字符集,也称为 Latin-9,或者被匿称为 Latin-0,它将 Latin-1 中较少用到的符号删除,换成当初遗漏的法文和芬兰字母;还有,把英镑和日元之间的金钱符号,换成了欧盟货币符号。
  
以下是 C1 控制码的号码和名称。
  HEX DEC 功能
  80 128 PADDING CHARACTER
  81 129 HIGH OCTET PRESET
  82 130 BREAK PERMITTED HERE
  83 131 NO BREAK HERE
  84 132 INDEX
  85 133 NEXT LINE
  86 134 START OF SELECTED AREA
  87 135 END OF SELECTED AREA
  88 136 CHARACTER TABULATION SET
  89 137 CHARACTER TABULATION WITH JUSTIFICATION
  8A 138 LINE TABULATION SET
  8B 139 PARTIAL LINE FORWARD
  8C 140 PARTIAL LINE BACKWARD
  8D 141 REVERSE LINE FEED
  8E 142 SINGLE-SHIFT TWO
  8F 143 SINGLE-SHIFT THREE
  90 144 DEVICE CONTROL STRING
  91 145 PRIVATE USE ONE
  92 146 PRIVATE USE TWO
  93 147 SET TRANSMIT STATE
  94 148 CANCEL CHARACTER
  95 149 MESSAGE WAITING
  96 150 START OF GUARDED AREA
  97 151 END OF GUARDED AREA
  98 152 START OF STRING
  99 153 SINGLE GRAPHIC CHARACTER INTRODUCER
  9A 154 SINGLE CHARACTER INTRODUCER
  9B 155 CONTROL SEQUENCE INTRODUCER
  9C 156 STRING TERMINATOR
  9D 157 OPERATING SYSTEM COMMAND
  9E 158 PRIVACY MESSAGE
  9F 159 APPLICATION PROGRAM COMMAND

英语虽然没有重音字母,但仍会标明为ISO/IEC 8859-1编码。

标签:


评论: 发表评论

订阅 博文评论 [Atom]





<< 主页

This page is powered by Blogger. Isn't yours?

订阅 博文 [Atom]