当前位置:首页 » 编程博文
开发技术指南» 文章正文
    引言: CLucene - a C++ search engine http://sourceforge.net/projects/clucene/ 传统的全文检索都是基于数据库的,Sql Server Oracle mysql 都提供全文检索,但这些比较大,不适合单机或小应用程序(Mysql4.0以...
 

 

 ·红客帝国之七种兵器    »显示摘要«
    摘要:如果你是大虾,本文对你没有任何价值,如果你是小小鸟,那就进来看看吧。本文介绍7种常用的黑客工具,足以将一个白痴武装到牙齿。同时本文也给出了对付这7种工具的防御措施,大家可以加强警惕。 1、 冰河(http://yaya2000.home.chinaren.com/binhe1.zip )。国产最精良的木马程序。说句实话,这个软件如果做成规规矩矩 的商业用远程控制软件,绝对不会逊于那个体积庞大,使用......
 ·oracle常用傻瓜問題1000問(之二)    »显示摘要«
    摘要:46. 如何在字符串里加回车?   select ´welcome to visit´||chr(10)||´www.csdn.net´ from dual ; 47. 中文是如何排序的?   oracle9i之前,中文是按照二进制编码进行排序的。   在oracle9i中新增了按照拼音、部首、笔画排序功能。设置nls_sort值   schines......


一个简单的中文分词

 clucene - a c++ search engine  http://sourceforge.net/projects/clucene/

    chinesetokenizer.cpp: 【程序编程相关:【头文件】c++实现链表

    传统的全文检索都是基于数据库的,sql server  oracle mysql 都提供全文检索,但这些比较大,不适合单机或小应用程序(mysql4.0以上可以作为整合开发),mysql也不支持中文.    后来得知apache有一个开源的全文检索引擎,而且应用比较广,lucene是apache旗下的java版的全文检索引擎,性能相当出色,可惜是java版的,我一直在想有没有c或c++版的,终于有一天在http://sourceforge.net 淘到一个好东东,clucene!clucene是c++版的全文检索引擎,完全移植于lucene,不过对中文支持不好,而且有很多的内存泄露,:p    cluene不支持中文的分词,我就写了一个简单的中文分词,大概思路就是传统的二分词法,因为中文的分词不像英文这类的语言,一遇到空格或标点就认为是一个词的结束,所以就采用二分词法,二分词法就是例如:北京市,就切成 北京 , 京市.这样一来词库就会很大,不过是一种简单的分词方法(过段时间我再介绍我对中文分词的一些思路) ,当然了,在检索时就不能输入“北京市”了,这样就检索不到,只要输入:“+北京 +京市”,就可以检索到北京市了,虽然精度不是很高,但适合简单的分词,而且不怕会漏掉某些单词.    我照着clucene的分词模块,做了一个chinesetokenizer,这个模块就负责分词工作了,我把主要的函数写出来 【推荐阅读:【头文件】c++实现字符串

  while(!rd.eos())  {   char_t ch = rd.getnext();         if( isspace((char_t)ch)!=0 )   {    continue;   }   // read for alpha-nums and chinese   if( isalnum((char_t)ch)!=0 )   {    start = rd.column(); 【扩展信息:我看OOP(四)

 token* chinesetokenizer::next() { 


...   下一页
 ·oracle常用傻瓜問題1000問(之四)    »显示摘要«
    摘要: 虚擬字段 133. currval 和 nextval   为表创建序列   create sequence empseq ... ;   select empseq.currval from dual ;   自动插入序列的数值   insert into emp     values (empseq.nextval, ´lewis´, ´clerk&acu......
» 本期热门文章:

©2000-2007 All Rights Reserved. 最佳浏览:1024X768 MSIE