一部指导搜索引擎理论的书
因此基本上以理论知识为主,当然也会有一些实用的例子,如果您问“如何提高网站的排名?”或者“如何提高被搜索到的次数?”,抱歉,这些问题不在我的回答范围内,我这里要写的是关于搜索的理论,已经被搜索引擎用到的与没有用的到,已经公开的或者未公开的知识. 【程序编程相关:Asp中代码与页面的分离】
引言,打算业余的时间将这本书的骨架写出来,至于其中的血肉,有空了再补充上.这里基本上最主要的内容是数学+信息学,基本上是我这几年的工作. 【推荐阅读:RSS 2.0 Specificatio】
第一章 数字信息概述 【扩展信息:用 Java 保存位图文件】
讲述数字信息的历史,特征...(略)
第二章 信息的相关性
信息的相关性在没有良好的方法来进行计算其相关性的时候,可以采用信息空间差值法:
为了简单期间,我们架设a元素得到了a_n个结果,搜索b得到了b_n个结果,联合a + b 得到了ab_n 个结果,那么a 与 b 的相关性可以这么定义:
correlation = (ab_n)/(a_n + b_n - ab_n)
第三章:信息的表达本章讲述两个问题:信息的夹角与信息的表达
1] 信息的夹角
theta(i_a, i_b) = sqrt(arccos( relation(i_a, i_b)))
信息在上述表达式里是矢量,信息之间的夹角表现为信息之间的点乘.而点乘的结果表现为信息之间的关系(见上一章里面信息的相关性)的开方,由此定义信息之间的夹角应是从0度到90度之间的数值:
0度,表明信息平行,或者乘平行的信息,说明信息之间完全相关.
90度,表明信息正交,正交的信息,说明信息之间没有相关性.由此推算unix 与 linux 之间的夹角为:73度.
2] 信息的表达:
信息失的概念:
对于任何信息失,对其取模可以得到信息失的长度,m_a=||i_a|| ,那么单位信息失表达为:i_a = i_a/m_a = i_a/||i_a||适当的选取信息失,从而可以选择单位信息失,那么任何的信息矢量可以通过单位信息失的组合得到.
我们首先来假设建立如下的一组信息失:
... 下一页