欢迎来到小居数码网-一家分享数码知识,生活小常识的网站,希望可以帮助到您。

当前位置:生活小常识 > 数码知识 >
优质

搜索引擎爬虫原理介绍(搜索引擎爬虫的主要功能)

数码知识

陈虞文优秀作者

原创内容 来源:小居数码网 时间:2024-07-29 16:44:01 阅读() 收藏:33 分享:62

导读:您正在阅读的是关于【数码知识】的问题,本文由科普作家协会,生活小能手,著名生活达人等整理监督编写。本文有1079个文字,大小约为5KB,预计阅读时间3分钟。

做过网站排名的朋友们都知道要优化关键词,优化网站,但是不知道文章发布被抓取后,爬虫经历了什么?为什么别人网站的排名比你高,为什么你的这个关键词比别人排名高,如何能让自己网站的关键词能获得一个好的排名,如何能让搜索引擎更加青睐自己的网站,今天我们一起来学习一下网站文章被爬虫抓取后,百度搜索引擎是怎么给关键词排名的呢?

搜索引擎爬虫的主要功能

我们作为一名Seoer,必须知道搜索引擎的工作原理,你只有知道搜索引擎的工作原理你才能更好的对此加以在网站优化的过程中加以运用。今天简单地在这里给大家分享一下搜索引擎的工作原理。

搜索引擎的工作原理

搜索引擎的工作过程大致可以划分为三个步骤: 搜索引擎蜘蛛爬行和抓取数据 、 搜索引擎后台预处理(索引)所收集的数据 、搜索引擎按照一定方式进行网站(网页)的排名。

  一、搜索引擎蜘蛛爬行和抓取数据

搜索引擎蜘蛛会爬行和抓取你网站上的数据,首先我们要给搜索引擎一个入口,越多的搜索引擎的抓取入口就意味着越多的抓取机会。新站可以在百度,360搜索引擎提交网站,让它更快知道你的存在。

为什么原创文章更利于搜索引擎的抓取,因为搜索引擎爬行和抓取数据的时候,搜索引擎会检查内容,并匹配本身数据库存在的内容,如果权重低的站大量转载内容,蜘蛛爬取后在数据库中对比,不是原创没有任何价值后,将不再来爬取你的网站,而且严重情况可能会怀疑作弊,给你网站降权或者不在百度中展示你的网站,你之前有的关键词排名也美哟了。所以对于新站的一个建议是原创最好。

  二、搜索引擎后台预处理(索引)所收集的数据

1、提取网站内容如文字等:对于搜索引擎在网站抓取的内容进行提取相关意义内容,去掉一些不必要的标签等。

2、进行中文分词及去掉无用词:把网页中的文字进行拆分、分词,并且过滤掉文章中的一些无意义的词,如“的、地”等

3、对内容消除非重要内容:去掉与意义内容正文无关的文字如一些本身存在的回帖,发帖之类

4、去掉网站重复内容:多个一样内容的页面,要从数据库中删除掉重复页面和链接。

5、索引内容:正向及反向索引,以链接出发,对应若干关键词叫正向索引;或者以关键词出发,对应多个链接的方式叫反向索引。

6、链接关系计算:计算每个页面有哪些导入页面,导入锚文本关键词,形成了页面(链接)的权重(如PR),并存储该权重的数值。

  三、搜索引擎按照一定方式进行网站(网页)的排名

1、搜索关键词处理:对于搜索的词进行分词、去掉无用字、拼写矫正、指令处理等

2、查找关键词对应链接集合:用第一步得出的分词后的关键词到反向索引表进行查询,找到该词对应的所有链接

3、初始子集选择:基于各页面(链接)权重数值高低,筛选一个适当的关键词对应链接的子集(几千或几万)。

4、相关性计算:看分词关键词的常用度(常用度低的词搜索引擎更关注)、看词出现频率密度、关键词的位置及形式(关键词位置重要,如开头,结尾,H1中,粗体中等相关性高)、关键词距离(距离小的相关性高)、外链锚文字相关性、外链源本身相关性及链接周围文字(这个应该是考虑的最多的,可能这个就能体现我们对我们外部优化的一些工作的要求)

5、排名过滤及调整:经过前几步,大体排名就已经确定了。搜索引擎还会对结果集进行一些过滤,对作弊及涉嫌作弊页面,会放到集合最后。

6、将搜索的排名结果显示:这个就不多解释,就是搜索之后呈现给你的结果。

7、搜索结果的缓存:搜索引擎排名出结果后,会对结果集进行缓存,不必每次重新计算。

8、用户查询及点击日志:日志文件中的数据对搜索引擎判断搜索结果质量,调整搜索算法,预期搜索趋势等都有比较重要意义,甚至会根据用户体验来反作用与排名结果。

以上就是“网站文章被爬虫抓取后,百度搜索引擎是怎么给关键词排名的呢?”的全部内容,如果有没有表达清楚的地方,欢迎大家留言,一起进步。

上面就是小居数码小编今天给大家介绍的关于(搜索引擎爬虫的主要功能)的全部内容,希望可以帮助到你,想了解更多关于数码知识的问题,欢迎关注我们,并收藏,转发,分享。

94%的朋友还想知道的:

(552)个朋友认为回复得到帮助。

部分文章信息来源于以及网友投稿,转载请说明出处。

本文标题:搜索引擎爬虫原理介绍(搜索引擎爬虫的主要功能):http://sjzlt.cn/shuma/152643.html

猜你喜欢