而百度传统的左侧广告,既没有明确标注促销链接,也没有使用任何背景色,与下方的自然搜索结果更是难以区分。以上三条唯一能辨别是广告的,就是在结果列表最后一行右侧标注了“促销”二字。百度的广告结果,无论是背景色还是文字标注,都很难与自然结果区分开来。网站优化人员当然很清楚两者的区别,但普通网民却很难察觉,尤其是百度传统的左侧广告,这也是百度搜索结果经常被诟病的原因之一。下面我们来看看各个搜索结果页面的展示形式。
事实上,用户并不需要知道所有数十万甚至数百万个符合条件的页面,大多数用户只会查看前两页,也就是前 20 个结果。搜索引擎不需要计算这么多页面的相关性,而只需要计算其中最重要的部分页面。经常使用搜索引擎的人会注意到,搜索结果页面通常最多显示 100 个结果,当用户点击搜索结果页面底部的“下一页”链接时,最多只能看到第 100 页,也就是 1000 个搜索结果。但问题是,在计算相关性之前,搜索引擎如何知道哪 1000 个文件最相关?因此,最终相关性计算的初始页面子集的选取必须依靠其他特征而非相关性,其中最重要的就是页面权重。
百度列表中的搜索词在结果列表中以加粗形式显示。 百度列表中的搜索词以加粗形式显示。 上面讨论的是最经典的结果列表格式,搜索引擎近年来也在不断尝试不同格式的搜索结果,特别是推出了很多特殊的结果列表,这里就主要的几种做一下简单介绍。 综合搜索结果 在之前的搜索结果页面截图中,可以看到两种综合搜索结果,中间的资讯结果和页面底部的博客搜索结果。 根据搜索关键词的不同,其他垂直搜索结果也经常会混杂在正常的网页搜索结果中,比如图片结果、视频结果等。
在别人的文章里加几个“的、地、得”,改改段落顺序,然后放到网站上当成自己的原创,这是很卑鄙的抄袭行为。如果你懂搜索引擎的原理,就知道这种伪原创是行不通的。搜索引擎不会因为两篇文章有几个词不一样,或者段落顺序不一样,就真的把两篇文章当成不同的内容,搜索引擎的权重算法要先进和精准得多。比如对于大型网站来说,最关键的问题就是解决收录问题,收录足够了才能带动大量的长尾关键词,即使是拥有人力和财力的大公司,面对动辄几百万、几千万页面的网站,处理好收录足够问题也不容易。
我们经常在搜索结果中看到排名无缘无故的上下波动,甚至刷新页面也会出现不同的排名,有时网站数据还可能丢失。这些可能和大规模数据存储的技术难度有关。索引处理快速、有效、可扩展。搜索引擎在抓取并存储页面数据后,还需要进行索引处理,包括计算链接关系、正向索引、倒排索引等。由于数据库中的页面数量众多,进行PR等迭代计算也是费时费力的。为了及时提供相关、及时的搜索结果,仅仅抓取是没有用的,必须进行大量的索引计算。由于随时都会加入新的数据和新的页面,所以索引处理还必须具有良好的可扩展性。
中文分词是中文搜索引擎特有的步骤。搜索引擎是按照词来存储和处理页面和用户搜索的。英语等语言中单词之间有空格,搜索引擎索引程序可以直接将句子分成词组。但中文单词之间没有分隔符,一个句子中的所有字符和单词都是连在一起的。搜索引擎首先要区分哪些字符组成一个词,哪些字符单独是一个词。例如,“减肥方法”会被切分为“减肥”和“方法”两个词。中文分词基本上有两种方法,一种是基于词典匹配,一种是基于统计。