摘要:magicgod 15:07:30birt我试过了 magicgod 15:07:41还不错的,生成pdf会乱码 magicgod 15:08:12有前途的,有些小bug buaawhl 15:08:28excel 也有xml格式。 buaawhl 15:09:03我感觉,大部分处理二进制pdf/excel 的工具,不久就基本失去了作用。 magicgod 15:09:23office升级还没这么......
摘要:5.2. jdbc 和java应用程序\r对于一个普通的java应用程序(例如全部用java代码而不是不可靠的applet )jdbc将从本地的类路径里面获得驱动,并且允许应用程序自由存取文件,远程服务器等等。但是和applet一样,如果由于某些原因一个没有验证的sun.sql.driver类从远程的来源里面获得,那么这个驱动只能和相同地方来的代码配合。5.3. driver的安全责任jdbc d......
中文分词和二元分词综合对比
中文分词与二元分词综合对比
【程序编程相关:
痛苦的windows20003+orac】
【推荐阅读:
java相关软件下载网址一覧
】
采用中文分词每1m产生1.55m的索引文件,膨胀率1.55;每1m用时大约10秒;采用二元分词每1m产生2.21m的索引文件,膨胀率2.21;每1m用时大约7秒;
【扩展信息:
在Struts中使用JavaBean和L】
为了测试中文分词与二元分词的差异,现将初步的测试数据做了对比.关于二元分词可以参考车东先生的相关文章.
从搜索结果来看,两者可以大致相同数量的搜索结果(显示结果根据相关度排列顺序不同).
对文本进行中文分词的目的是要提高文档检索的相关性,由于相关性的算法(如下图)涉及到很多因素,所以对二元切分与中文分词切分显示结果到底谁更相关(人理解的意义相关?),还无法得出结论.
相关度算法:
score(q,d) =
σ
tf(t in d) * idf(t) * getboost(t.field in d) * java.lang.string,%20int%29">lengthnorm(t.field in d)
* coord(q,d) * querynorm(q)
t in q
但有一点可以肯定,采用中文分词多花的解析中文时间可以带来丰厚的回报:索引文件与term数量的大大减少.
可参考本文最后表格的图片对比.图中的数据是出现频率第100至120个term情况,二元分词产生了大量的没有意义的term.
...
下一页 摘要:4.泛型与数据类型转换 4.1. 消除类型转换 上面的例子大家看到什么了,数据类型转换的代码不见了。在以前我们经常要书写以下代码,如: import java.util.hashtable; class test { public static void main(string[] args) { hashtable h = new hashtable(); h.put(&q......