2010年2月12日星期五
About ISO8859
ISO8859 字符集与编码
ISO 8859,全称ISO/IEC 8859,是国际标准化组织(ISO)及国际电工委员会(IEC)联合制定的一系列8位字符集的标准,现时定义了15个字符集。ISO8859 不是一个标准,而是一系列的标准,这套字符集与编码系统的共同特色是,以同样的码位对应不同字符集。其基本精神是:
1.与 ASCII 相容,所以所有的低位(0—6位)皆不使用,即为ascii码表示.
2.高位中的前 32 个码位 (0x80 -- 0x9F 或 128--159),保留给扩充定义的 32 个控制码,称为 C1 控制码 (0--31 称为 C0 控制码)。
3.高位中第 33 个码位 (0xA0 或 160),也就是对应 ASCII 中 SP (空格) 的码位,总是代表 Non-breakable space(nbsp),也就是不准许折行的空格。
4.每个字符集定义至多 95 个字符,其码位都在 0xA1 -- 0xFF 或 161--255。
5.每个字符集收录欧洲某地区的共同常用字符。
ISO8859-1 字符集,也就是 Latin-1,是西欧常用字符,包括德法两国的字母。
ISO8859-2 字符集,也称为 Latin-2,收集了东欧字符。
ISO8859-3 字符集,也称为 Latin-3,收集了南欧字符。
ISO8859-4 字符集,也称为 Latin-4,收集了北欧字符。
ISO8859-5 字符集,也称为 Cyrillic,收集了斯拉夫语系字符。
ISO8859-6 字符集,也称为 Arabic,收集了阿拉伯语系字符。
ISO8859-7 字符集,也称为 Greek,收集了希腊字符。
ISO8859-8 字符集,也称为 Hebrew,收集了西伯莱 (犹太人) 字符。
ISO8859-9 字符集,也称为 Latin-5 或 Turkish,收集了土耳其字符。
ISO8859-10 字符集,也称为 Latin-6 或 Nordic,收集了北欧 (主要指斯堪地那维亚半岛) 的字符。
ISO8859-11 字符集,也称为 Thai,它是从泰国的 TIS620 标准字符集演化而来。
目前尚未定义 ISO8859-12 字符集。
ISO8859-13 字符集,也称为 Latin-7,主要函盖波罗的海 (Baltic) 诸国的文字符号,也补充一些在 Latin-6 中遗漏的拉脱维亚 (Latvian) 字符。
ISO8859-14 字符集,也称为 Latin-8,它将 Latin-1 中的某些符号换成塞尔特语 (Celtic) 的字符。塞尔特族是指英伦外围的威尔斯人 (Welsh) 和盖尔人 (Gaelic)。
ISO8859-15 字符集,也称为 Latin-9,或者被匿称为 Latin-0,它将 Latin-1 中较少用到的符号删除,换成当初遗漏的法文和芬兰字母;还有,把英镑和日元之间的金钱符号,换成了欧盟货币符号。
以下是 C1 控制码的号码和名称。
HEX DEC 功能
80 128 PADDING CHARACTER
81 129 HIGH OCTET PRESET
82 130 BREAK PERMITTED HERE
83 131 NO BREAK HERE
84 132 INDEX
85 133 NEXT LINE
86 134 START OF SELECTED AREA
87 135 END OF SELECTED AREA
88 136 CHARACTER TABULATION SET
89 137 CHARACTER TABULATION WITH JUSTIFICATION
8A 138 LINE TABULATION SET
8B 139 PARTIAL LINE FORWARD
8C 140 PARTIAL LINE BACKWARD
8D 141 REVERSE LINE FEED
8E 142 SINGLE-SHIFT TWO
8F 143 SINGLE-SHIFT THREE
90 144 DEVICE CONTROL STRING
91 145 PRIVATE USE ONE
92 146 PRIVATE USE TWO
93 147 SET TRANSMIT STATE
94 148 CANCEL CHARACTER
95 149 MESSAGE WAITING
96 150 START OF GUARDED AREA
97 151 END OF GUARDED AREA
98 152 START OF STRING
99 153 SINGLE GRAPHIC CHARACTER INTRODUCER
9A 154 SINGLE CHARACTER INTRODUCER
9B 155 CONTROL SEQUENCE INTRODUCER
9C 156 STRING TERMINATOR
9D 157 OPERATING SYSTEM COMMAND
9E 158 PRIVACY MESSAGE
9F 159 APPLICATION PROGRAM COMMAND
英语虽然没有重音字母,但仍会标明为ISO/IEC 8859-1编码。
ISO 8859,全称ISO/IEC 8859,是国际标准化组织(ISO)及国际电工委员会(IEC)联合制定的一系列8位字符集的标准,现时定义了15个字符集。ISO8859 不是一个标准,而是一系列的标准,这套字符集与编码系统的共同特色是,以同样的码位对应不同字符集。其基本精神是:
1.与 ASCII 相容,所以所有的低位(0—6位)皆不使用,即为ascii码表示.
2.高位中的前 32 个码位 (0x80 -- 0x9F 或 128--159),保留给扩充定义的 32 个控制码,称为 C1 控制码 (0--31 称为 C0 控制码)。
3.高位中第 33 个码位 (0xA0 或 160),也就是对应 ASCII 中 SP (空格) 的码位,总是代表 Non-breakable space(nbsp),也就是不准许折行的空格。
4.每个字符集定义至多 95 个字符,其码位都在 0xA1 -- 0xFF 或 161--255。
5.每个字符集收录欧洲某地区的共同常用字符。
ISO8859-1 字符集,也就是 Latin-1,是西欧常用字符,包括德法两国的字母。
ISO8859-2 字符集,也称为 Latin-2,收集了东欧字符。
ISO8859-3 字符集,也称为 Latin-3,收集了南欧字符。
ISO8859-4 字符集,也称为 Latin-4,收集了北欧字符。
ISO8859-5 字符集,也称为 Cyrillic,收集了斯拉夫语系字符。
ISO8859-6 字符集,也称为 Arabic,收集了阿拉伯语系字符。
ISO8859-7 字符集,也称为 Greek,收集了希腊字符。
ISO8859-8 字符集,也称为 Hebrew,收集了西伯莱 (犹太人) 字符。
ISO8859-9 字符集,也称为 Latin-5 或 Turkish,收集了土耳其字符。
ISO8859-10 字符集,也称为 Latin-6 或 Nordic,收集了北欧 (主要指斯堪地那维亚半岛) 的字符。
ISO8859-11 字符集,也称为 Thai,它是从泰国的 TIS620 标准字符集演化而来。
目前尚未定义 ISO8859-12 字符集。
ISO8859-13 字符集,也称为 Latin-7,主要函盖波罗的海 (Baltic) 诸国的文字符号,也补充一些在 Latin-6 中遗漏的拉脱维亚 (Latvian) 字符。
ISO8859-14 字符集,也称为 Latin-8,它将 Latin-1 中的某些符号换成塞尔特语 (Celtic) 的字符。塞尔特族是指英伦外围的威尔斯人 (Welsh) 和盖尔人 (Gaelic)。
ISO8859-15 字符集,也称为 Latin-9,或者被匿称为 Latin-0,它将 Latin-1 中较少用到的符号删除,换成当初遗漏的法文和芬兰字母;还有,把英镑和日元之间的金钱符号,换成了欧盟货币符号。
以下是 C1 控制码的号码和名称。
HEX DEC 功能
80 128 PADDING CHARACTER
81 129 HIGH OCTET PRESET
82 130 BREAK PERMITTED HERE
83 131 NO BREAK HERE
84 132 INDEX
85 133 NEXT LINE
86 134 START OF SELECTED AREA
87 135 END OF SELECTED AREA
88 136 CHARACTER TABULATION SET
89 137 CHARACTER TABULATION WITH JUSTIFICATION
8A 138 LINE TABULATION SET
8B 139 PARTIAL LINE FORWARD
8C 140 PARTIAL LINE BACKWARD
8D 141 REVERSE LINE FEED
8E 142 SINGLE-SHIFT TWO
8F 143 SINGLE-SHIFT THREE
90 144 DEVICE CONTROL STRING
91 145 PRIVATE USE ONE
92 146 PRIVATE USE TWO
93 147 SET TRANSMIT STATE
94 148 CANCEL CHARACTER
95 149 MESSAGE WAITING
96 150 START OF GUARDED AREA
97 151 END OF GUARDED AREA
98 152 START OF STRING
99 153 SINGLE GRAPHIC CHARACTER INTRODUCER
9A 154 SINGLE CHARACTER INTRODUCER
9B 155 CONTROL SEQUENCE INTRODUCER
9C 156 STRING TERMINATOR
9D 157 OPERATING SYSTEM COMMAND
9E 158 PRIVACY MESSAGE
9F 159 APPLICATION PROGRAM COMMAND
英语虽然没有重音字母,但仍会标明为ISO/IEC 8859-1编码。
标签: ISO8859
订阅 博文 [Atom]