当前位置:首页 » 软件开发
开发技术指南» 文章正文
    引言: 中文分词和二元分词综合对比
 

 

 ·eclipse birt     »显示摘要«
    摘要:magicgod 15:07:30birt我试过了 magicgod 15:07:41还不错的,生成pdf会乱码 magicgod 15:08:12有前途的,有些小bug buaawhl 15:08:28excel 也有xml格式。 buaawhl 15:09:03我感觉,大部分处理二进制pdf/excel 的工具,不久就基本失去了作用。 magicgod 15:09:23office升级还没这么......
 ·jdbc编程基础 第二部分     »显示摘要«
    摘要:5.2. jdbc 和java应用程序\r对于一个普通的java应用程序(例如全部用java代码而不是不可靠的applet )jdbc将从本地的类路径里面获得驱动,并且允许应用程序自由存取文件,远程服务器等等。但是和applet一样,如果由于某些原因一个没有验证的sun.sql.driver类从远程的来源里面获得,那么这个驱动只能和相同地方来的代码配合。5.3. driver的安全责任jdbc d......


中文分词和二元分词综合对比
中文分词与二元分词综合对比

  【程序编程相关:痛苦的windows20003+orac

【推荐阅读:java相关软件下载网址一覧

采用中文分词每1m产生1.55m的索引文件,膨胀率1.55;每1m用时大约10秒;采用二元分词每1m产生2.21m的索引文件,膨胀率2.21;每1m用时大约7秒; 【扩展信息:在Struts中使用JavaBean和L

                为了测试中文分词与二元分词的差异,现将初步的测试数据做了对比.关于二元分词可以参考车东先生的相关文章.   

从搜索结果来看,两者可以大致相同数量的搜索结果(显示结果根据相关度排列顺序不同).    

对文本进行中文分词的目的是要提高文档检索的相关性,由于相关性的算法(如下图)涉及到很多因素,所以对二元切分与中文分词切分显示结果到底谁更相关(人理解的意义相关?),还无法得出结论.

相关度算法:

score(q,d) =

σ

tf(t in d) * idf(t) * getboost(t.field in d) * java.lang.string,%20int%29">lengthnorm(t.field in d)

 * coord(q,d) * querynorm(q)

t in q

 

 

       但有一点可以肯定,采用中文分词多花的解析中文时间可以带来丰厚的回报:索引文件与term数量的大大减少.

可参考本文最后表格的图片对比.图中的数据是出现频率第100至120个term情况,二元分词产生了大量的没有意义的term.

 

 

 


...   下一页
    摘要:4.泛型与数据类型转换 4.1. 消除类型转换    上面的例子大家看到什么了,数据类型转换的代码不见了。在以前我们经常要书写以下代码,如: import java.util.hashtable; class test {   public static void main(string[] args) {    hashtable h = new hashtable();    h.put(&q......
» 本期热门文章:

©2000-2007 All Rights Reserved. 最佳浏览:1024X768 MSIE