第四十章 搜索引擎算法

几乎所有人都觉得白度的超链分析是三个算法中最落后的,但有些事情我们还是要多角度的看一看,白度的超链分析在某种程度上可以算得上是奠定了搜索引擎的发展基础。

有一些声音说谷歌其实是剽窃了白度的超链算法,毕竟李彦宏这个专利确实在谷歌之前,我们现在不去猜测真假,但这种说法体现了一个很重要的信号,其实不管是哪一家的算法,算法基础其实都是一样的。

抓取网页信息,然后用某种机制对这些网页进行排序,当用户输入关键词进行搜索时,根据关键词匹配出按照机制进行排列的网页。

那么白度输在哪呢?关键就在于白度现在过于简单的基于在某次搜索的所有结果中被其他网页用超链接指向的越多的网页就价值越高这种基础排序方式。

相比之下,谷歌的pagerank就多了两件很重要的事情,第一件事情是,把a页面到b页面的链接解释为a给b的投票行为,谷歌在这里会同时考评a和b的等级从而形成新的等级。

也就是每一个页面都有pr值,同时你的pr值会成为其他页面pr值的参考。

然后不断的重复计算每个页面的pr。假设给每个页面一个随机pr值,那么经过不断的重复计算,这些页面的pr值会趋向于稳定,也就是收敛的状态。

至于hits,其理论基础依然没变,它最大的特点或者说改变就在它意识到pagerank算法平均的分布权值不符合链接的实际情况。

所以hits算法中引入了另外一种网页,称为hub网页,hub网页是提供指向权威网页链接集合的web网页。

所以使用hits的搜索结果会比其他两者都更权威,但这个算法会大大增加计算负担,对吧?”

孟谦看了一眼ibm出来的哥们,对方愣了一下有点好像不确定的点了点头。

所以现在简单总结一下,搜索引擎的算法基础就是超链分析,算法的优劣势就在于如何让搜索结果更具有参考价值,让用户获得更有效的信息。

当然如果能直接理解用户的需求然后帮他搜索他最想要的内容,这是最理想的搜索引擎状态,但谁都知道这是不可能的。

因此搜索引擎的好坏决定的就是同样的关键词下,你是否能让相对更多的人获得他们想要的内容。

10个用户用谷歌,5个人找到了自己想要的东西,如果用我们的搜索引擎,6个人找到了自己想要的东西,在这里领域目前的技术环境下,我们就是更优秀的。

那么在这个理解基础上,我接下来要给大家介绍的,就是我的搜索引擎算法,动态规则超链

为优化阅读体验,本站内容均采用分页显示,请点击下一页继续阅读! 第2页 / 共3页

相关阅读: 燕北溟戚卿苒随身医典医妃权倾天下盛世红妆倾天下燕北溟戚卿苒戚卿苒燕北溟武动乾坤之火祖王耀范青眉富豪诞生记陈平江婉天威神将萧天慈天威神将萧天慈席慕雪斗罗之天使纪元陈立秦婉萧桦萧沐儿夜初棠封城熠重生之投资大帝叶凡姜珊妙手小医仙吴东超神学院之我是天使凉冰元妖记诡秘山海世界天命凰途:神医狂妃甜且娇秦偃月东方璃全能废少陈风陈风柳婉李佳佳