字符内码每个国家(或区域)都规定了计算机信息交换用的字符编码集,如美国的扩展ascii码.中国的gb2312-80.日本的 jis 等,作为该国家(区域)信息处理的基础,有着统一编码的重要作用.由于各本地字符集代码范围重叠,相互间信息交换困难,软件本地化版本独立维护成本较高.因此有必要将本地化工作中的共性抽取出来,做一致性处理,将特殊的本地化处理内容降低到最少,这就是所谓的国际化(i18n).各种语言信息被规范为本地信息,而底层字符集采用包含了所有字符的unicode.
codepage指的是一个经过挑选的以特定顺序排列的字符内码列表,对于早期的单字节内码的语种,codepage中的内码顺序使得系统可以按照此列表来根据键盘的输入值给出一个对应的内码.对于双字节内码,给出的是multibyte到unicode的对应表,这样就可以把以unicode形式存放的字符转化为相应的字符内码.引入对codepage的支持主要是为了访问多语种文件名,目前在ntfs与fat32/vfat下的文件系统上都使用unicode,这需要系统在读取这些文件名时动态地将其转换为相应的语言编码. 【程序编程相关:JAVA开放源码项目与工具在企业应用开发】
字符内码(character code)指的是用来代表字符的内码.我们在输入与存储文档时都要使用内码,内码分为单字节内码与双字节内码.单字节内码的英文全称是single-byte character sets (sbcs),可以支持256个字符编码;双字节内码的英文全称是double-byte character sets(dbcs),可以支持65000个字符编码,主要用来对大字符集的东方文字进行编码. 【推荐阅读:JAR文件包及jar命令详解】
gbk 是 gb2312-80 的扩展,是向上兼容的.它包含了20902个汉字,其编码范围是 0x8140~0xfefe,剔除高位 0x80 的字位,其所有字符都可以一对一映射到 unicode 2.0,也就是说 java 实际上提供了对 gbk 字符集的支持. 【扩展信息:Maven的使用(1)】
相信了解jsp代码的读者对iso8859-1一定不陌生,iso8859-1是我们平时使用比较多的一个codepage,它属于西欧语系.gb2312-80 是在国内计算机汉字信息技术发展初始阶段制订的,其中包含了大部分常用的一.二级汉字与9区的符号.该字符集是几乎所有的中文系统与国际化的软件都支持的中文字符集,这也是最基本的中文字符集.
>gb18030-2000(gbk2k) 在 gbk 的基础上进一步扩展了汉字,增加了藏.蒙等少数民族的文字.gbk2k 从根本上解决了字位不够.字形不足的问题.
不同开发平台的区别1.tomcat 4开发平台
windows 98/2000下的tomcat 4以上版本都会出现中文问题(而在linux下与tomcat 3.x中则没有问题),主要表现是页面显示乱码.在ie中调整字符集为gb2312,就可以正常显示了.
为解决这个问题,可在每个jsp的页面开始处加上<%@ page language=“java” contenttype=“text/html; charset=gb2312”%>.... 下一页