搜索引擎基本工作原理

摘要

作为一个合格的SEO,了解搜索引擎基本工作原理,是一件理所应当的事情,学习SEO的基础,就是搜索引擎基本工作原理,那些看起来令人不可思议的SEO技术,其实,都是从搜索引擎原理出发

作为SEO找工作的时候,经常会在招聘条件里面看到,精通各大搜索引擎原理、算法,等等;但是,在这里青衫想说,但凡招聘那么写的,其实都是对SEO不懂的人,做SEO的都知道,精通搜索引擎原理算法,那是什么概念,那就相当于可以将搜索引擎玩弄于鼓掌之中,想让什么词排第一,就让什么词排第一了,这是不现实的,所以,青衫在这里写的,仅仅是了解搜索引擎的基本工作原理,这就足够了;

从某些角度来说,SEO,就是尽可能的减少搜索引擎工作量,降低搜索引擎的工作难度,让搜索引擎能更快,更轻松的抓取网站页面,更准确提取网站内容;

搜索引擎基本工作原理

搜索引擎原理

SEO技术是基于对搜索引擎的理解

SEO优化之前,需要了解域名,网站结构,因为都知到,年头长且没有过黑历史的域名带有很好的权重,同时,网站的层次,url是否规范,也影响着网站页面的权重,高权重,在排名的时候,具有非常大的优势,这些,都是基于对搜索引擎的认识,才会明白的;权重高,意味着权威,可信,可靠,所以页面会获得好的排名,在同样页面相关的网页里,权重高的,排名要好很多,权重低的,甚至会没有排名;

搜索引擎基础工作原理第一阶段:爬行和抓取

搜索引擎蜘蛛通过跟踪链接,发现和访问页面,读取页面HTML代码,存入数据库;

搜索引擎蜘蛛在访问页面的时候,类似普通用户用浏览器一样,蜘蛛程序发出页面访问请求,服务器返回HTML代码,蜘蛛程序将代码储存到原始页面数据库中,和浏览器一样,蜘蛛也有表明身份的名称,在网站日志中就可看到,Baiduspider+(+http://www.baidu.com/search/spoder.html)这个是百度蜘蛛,还有其他的;

蜘蛛在追踪页面上的链接时,为了抓取更多的页面,会尽可能的爬行链接,一层一层,直到全部爬行完,理论上来讲,只要给蜘蛛足够的时间,它能爬完整个互联网,但是实际上,蜘蛛的宽带资源、时间都不是无限的,所以不可能爬完整个互联网,所爬行和收录的,也只是互联网的一部分;

由此,我们知道蜘蛛爬行抓取收录的页面,不会是所有的页面,所为SEO,就要想办法,让自己的网站更多的被蜘蛛爬行、收录;既然蜘蛛不能收录全部的页面,那就要尽量抓取重要的,质量高的网站页面;

什么样的算是重要。质量高呢?

权重,域名的年限久,资格老,网站更新频率稳定,导入链接质量高(就是我们总说的高质量外链),距离网站首页点击距离近,url层次浅,这样的,就是权重,质量都够高的网站,在被爬行的时候,即使页面深度较高,也有被爬行的机会,从而收录;

搜索引擎基础工作原理第二阶段:索引(预处理)-其实叫啥都行

我们在百度搜索东西的时候,会发现输入关键词后,不到2秒钟,结果就显示出来了,其他搜索引擎也是,这我们就要想,整个互联网的页面数以万计,搜索引擎是如何在短短不到2秒的时间就把相关的结果呈现出来的,仅仅靠排名程序么?在抓取网页,在计算相关性,计算权重,切词,去重等等之下,是不可能这么快的,因此,抓取过来的页面一定是通过预处理,位排名做好准备,就等着被排名程序调用了;

首先,提取页面html代码中的文字,除去可见的文字以外,还有一些标签中的,比如alt图片标签,锚文本啥的;

当文字提取完成后,进行中文分词,也有叫切词的,比如页面中“搜索引擎基础工作原理”这个词,可以分成”搜索、引擎、基础、工作、原理“等等,中文分词基于两种方法,一种是词典匹配,还有一种是,统计。在百度分词的时候,基于统计,会把”搜索引擎原理“当成一个词,因为这个词是一个完整的概念,而不会分成”搜索、引擎、基础“这种零碎的词来计算相关性;

分词后,就要去掉语气词,比如”的,啊,呀“这类的,因为,这类词没啥具体意义,基本什么样的页面都会有,所以在计算相关性,使主题更加突出,要去掉这些词。

最后,去掉噪声,大部分网站页面有一些对主题,相关性没啥用的文字,比如版权声明,导航,分类,这些每个页面都会有的重复性文字,在索引的时候,也会把这些东西都去掉,剩下的,就是页面文章的主题部分了。

去重,同一个文章不同网站都有,既然都一样的,那就只留一个就行了,留谁呢,当然是权威的,原创的了,但是现在百度在这方面做的并不是很令人满意啊。

最后,将在互联网中得到的页面,根据关键词,建立相应的文件,每个关键词对应这一大堆页面,当有人在搜索这个关键词的时候,这个关键词对应的这一堆,就会按照排名程序,分成1,2,3,4,5的出来了。

搜索引擎基础工作原理第三阶段:排名

排名,得是在有人搜索关键词的时候才开始的,所以,程序首先执行的,也要是搜索的关键词,当用户输入关键词搜索后,也会先进行分词,去噪声;

假如用户搜索”SEO优化“的时候,分词为”SEO、优化“两个词,搜索引擎认为,用户想要找的,既是SEO,也包含优化的页面。那些只有SEO,或者只有优化的页面便不符合条件,这里说的,只是极其简化了排名程序,实际上还要有很多条件因素在里面,在结果页面还是会看到只有一种条件的页面;

在相关性的页面选择排序的时候,同样相关的页面在整个互联网中有上万上亿,对这么多页面计算相关性也不太现实,同时,正常人百度的时候基本也就看前两页,有的连第二页都不看,所以计算那么多的页面也没啥意义,百度在现实结果的时候,就显示100页,一页10个也就是1000个了,所以,相关性计算只需要计算那前1000个就可以了,但是,问题来了,那么多,怎么知道谁是在前1000个里面呢,所以,在确定这1000个结果页面的时候,依靠的是一些其他特征,而不是相关性了,为啥不看相关性,因为这成千上万的页面都跟关键词相关,所以,这时候,看的就是页面权重了,当你的网站页面权重够高,就能够脱颖而出,进入搜索结果的100页以内;

当我们的页面进入前1000之后,排名开始计算这1000个页面的相关性,相关性计算受几个方面影响,

先是,关键词出现的位置,在页面的标题里面出现关键词,还H标签,alt标签,锚文字,页面的上方,这些地方的关键词在计算相关性的时候会非常有帮助,其次,关键词密度,页面中关键词出现的频率,密度怎么样,如果就出现一次,很难使他的相关性提高,但是也不能为了单纯提高出现次数,和密度故意堆积,自然就好。

当着一切都完事后,排名基本上也就结束了,但是还会有细微的计算调整。

整个的搜索引擎基础工作原理就了解这些了。

weinxin
我的微信
这是我的微信扫一扫
seo青衫

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: