引言:
因为一直不信Java竟会有不能混排显示多国语言的BUG,这个周末研究了一下Servlet、Jsp的多国语言显示的问题,也就是Servlet的多字符集问题,由于我对字符集的概念还不是很清晰所以写出的东西未必是准确的,我是这样理解Java中的字符集的:在运行时,每个字符串对象中存储的都是...
摘要:
说实话,我做jsp与mysql的连接已经有快一个多星期了,就是因为上次那个 2000server 崩溃,让我又花了三天重装 whilterl(就是那个windowsxpserver,有兴趣的可以看我的whilter初体验那篇文章),不是自己亲身体验不知道呀,现就和大家一起分享.
我本来在 linux 下已经很好的实现了jsp与mysql的连接,(点击放大,下同),
但是为......
摘要:
在jsp中,中文乱码常会让人心乱如麻。
对于中文处理的常见对策,在网上经常可见的主要是下面2种:
<%@ page contenttype="text/html;charset=gb2312" %> ......
关于Servlet、Jsp中的多国语言显示
因为一直不信java竟会有不能混排显示多国语言的bug,这个周末研究了一下servlet.jsp的多国语言显示的问题,也就是servlet的多字符集问题,由于我对字符集的概念还不是很清晰所以写出的东西未必是准确的,我是这样理解java中的字符集的:在运行时,每个字符串对象中存储的都是编码为unicode内码的(我觉得所有的语言中都是有相应编码的,因为在计算机内部字符串总是用内码来表示的,只不过一般计算机语言中的字符串编码时平台相关的,而java则采用了平台无关的unicode).
java从一个byte流中读取一个字符串时,将把平台相关的byte转变为平台无关的unicode字符串.在输出时java将把unicode字符串转变为平台相关的byte流,如果某个unicode字符在某个平台上不存在,将会输出一个?.举个例子:在中文windows中,java读出一个"gb2312"编码的文件(可以是任何流)到内存中构造字符串对象,将会把gb2312编码的文字转变为unicode编码的字符串,如果把这个字符串输出又将会把unicode字符串转化为gb2312的byte流或数组:"中文测试"----->"\u4e2d\u6587\u6d4b\u8bd5"----->"中文测试".
如下例程:
byte[] bytes = new byte[]{(byte)0xd6, (byte)0xd0, (byte)0xce, (byte)0xc4, (byte)0xb2, (byte)0xe2, (byte)0xca, (byte)0xd4};//gbk编码的"中文测试"
java.io.bytearrayinputstream bin = new java.io.bytearrayinputstream(bytes);
java.io.bufferedreader reader = new java.io.bufferedreader(new java.io. inputstreamreader (bin,"gbk"));
string msg = reader.readline();
system.out.println(msg)
这段程序放到包含"中文测试"这四个字的系统(如中文系统)中,可以正确地打印出这些字.msg字符串中包含了正确的"中文测试"的unicode编码:"\u4e2d\u6587\u6d4b\u8bd5",打印时转换为操作系统的默认字符集,是否可以正确显示依赖于操作系统的字符集,只有在支持相应字符集的系统中,我们的信息才能正确的输出,否则得到的将会是垃圾.
话入正题,我们来看看servlet/jsp中的多语言问题.我们的目标是,任一国家的客户端通过form向server发送信息,server把信息存入数据库中,客户端在检索时仍然能够看到自己发送的正确信息.事实上,我们要保证,最终server中的sql语句中保存的时包含客户端发送文字的正确unicode编码;dbc与数据库通讯时采用的编码方式能包含客户端发送的文字信息,事实上,最好让jdbc直接使用unicode/utf8与数据库通讯!这样就可以确保不会丢失信息;server向客户端发送的信息时也要采用不丢失信息的编码方式,也可以是unicode/utf8.
如果不指定form的enctype属性,form将把输入的内容依照当前页面的编码字符集urlencode之后再提交,服务器端得到是urlencoding的字符串.编码后得到的urlencoding字符串是与页面的编码相关的,如gb2312编码的页面提交"中文测试",得到的是"%d6%d0%ce%c4%b2%e2%ca%d4",每个"%"后跟的是16进制的字符串;而在utf8编码时得到的却是"%e4%b8%ad%e6%96%87%e6%b5%8b%e8%af%95",因为gb2312编码中一个汉字是16位的,而utf8中一个汉字却是24位的.中日韩三国的ie4以上浏览器均支持utf8编码,这种方案肯定包涵了这三国语言,所以我们如果让html页面使用utf8编码那么将至少可以支持这三国语言....
下一页 摘要:
在本篇文章中,我们将会深入了解在不同的tag library描述符(tag library descriptors:tlds)中使用各种不同的tag的情况.我们将会依次研究 条件、循环、url、u18n、xml等tag的用法。以此来提高你对jstl的认识和应用能力,在阅读本文前,你应该对 jsp tag lib有所了解,并清楚有关jstl(jsp standard tag librar......