您的当前位置:SEO培训教程学习网 > seo算法 > 从倒排索引算法倒推搜索引擎优化排名方式

从倒排索引算法倒推搜索引擎优化排名方式

分类: seo算法 发布时间: 2019-05-20 10:26

  索引是搜索引擎中最为核心的技术之一,因为在大量的网页中,怎样才能更快、更精准的找到用户查询这个词的搜索意图。

  先给大家说几个概念,为了下面的讲述中,大家都能看得懂。

  1、文档:我们是以网页的形式看到互联网页面的,而网页中包含很多的东西,比如:TXT、EXCEL、PDF等等很多各式各样的文件都被成为文档。

  2、文档集合:由很多的文档组成一个集合,称为文档集合。

  3、文档编号:互联网上每一个文档都有各自且独一无二的编号。

  4、单词编号:每个单词都有各自的唯一编号,用编号来代表这个单词或、短语者句子。

  5、倒排索引:是在搜索引起的索引库中,以单词对应网页的一种存储的形式,可以根据单词快速的获取相关的文档。

  关于索引是SEO必须要经历和摸索的一个阶段,但是绝大多数SEO人员往往忽略了搜索引擎的核心本质,从而一味的追求所谓的用户体验、原创文章。到头来,排名一如既往,停滞不前。如果把搜索引擎结果排序当作是一场考试,那么你纠结的最多只是这场考试的三分之一。

  在了解倒排索引的前奏,我们更应该去深度学习搜索引擎它核心的排序流程,从蜘蛛抓取到爬行,从网页去重到链接分析,从网页收录到索引建立,从有效索引到结果排序,每一步都是环环相扣。搜索引擎所经历的三个阶段亦是如此,随着搜索引擎的发展和变革,最初的文本时代到后面的链接分析时代在到现在的用户时代,不管SEO如何改变,它的道永远未变。

  很多人都在思考一个问题,网页的收录达到了数万级别,但是所获取的流量是两位数,为何参与页面的收录流量反倒越来越小,是什么让收录的页面无法参与排名,而这个话题是本文的核心讲述。对于结果排序,搜索引擎通过最基础的蜘蛛抓取和爬行以后,中间有一个非常重要的一环叫做网页去重,而网页去重借用搜索引擎的算法来讲也是文档检索模型的一个点。

  本质上来说,搜索引擎并不能像人一样去判断内容的相似度,而倒排索引是区分网页相似度的核心基石,从原理上讲倒排索引是通过文档集合的分词技术拆分网页的所有内容,并通过TF计算对应的关键词频次,从而用于查询词Query进行的一种相似度检测,而相似度越小的网页值计算的结果会用于更好的网页结果排序。尽管单纯的倒排索引并不能对网页的去重计算达到一个很好的效果,但是由于文档检索的向量空间模型也包含了TF-IDF算法,从而让倒排索引对于网页的相似度计算有了更加精准的价值作用。

  多数SEO人员很容易忽略倒排索引的存在,尤其是大型网站架构当中,倒排索引的作用是至关重要的,并且倒排索引的利用如果到位,那么你将节省的不仅仅是SEO层面上的问题,甚至解决了程序+运营并存的一种流量深入。

  实战应用,在纸上谈的再多,不如通过实战去验证这个论点,是否对排名有帮助。下面就来看看。

从倒排索引算法倒推搜索引擎优化排名结果

  以首页自然排名的10个网站的网页类型和标题为例:

  首页,排名第一,“早点培训_早餐培训班_早点培训学校【免费吃住】”

  首页,排名第二,“早餐培训_早餐培训班_早餐培训学校【免费加盟】”

  首页,排名第三,“上海顶正小吃培训学校_早点培训_生煎包培训_烧烤培训全国最专.....”

  首页,排名第四,“上海早点培训|重庆小面培训|山东杂粮饼培训|卤菜培训|小吃培训.......”

  首页,排名第五,“小吃培训_特色小吃_小吃项目加盟-老灶台特色小吃培训学校”

  内页,排名第六,“早点培训 正规早点培训班-培训通”

  首页,排名第七,“艺尚食代-早餐早点培训”

  首页,排名第八,“小吃培训,早点培训,上海面点培训,上海德志厨艺美食培训中心021-...”

  首页,排名第九,“早餐店加盟_营养早餐加盟_特色早点加盟店_早餐店连锁加盟培训_开...”

  内页,排名第十,“早点培训班 正宗早点培训中心-培训通”

  分析得出:早点培训在这个10个网站中基本上都出现了2词,大家有没有发现早点和早餐是近义词,(比如:我早点吃了什么,我早餐吃了什么。这两句话表达的是同一个意思。)等于是增加了一遍词频,也就是3次了,在这里提醒大家关键词千万不要堆砌,要保持一个自然性。

  另外通过之前的实验数据得出标题最左边的词权重最高,仅仅结合这两点,排名第一的网站标题做的比其他的网站标题都到位。另外标题结尾处“【免费吃住】”这是一个吸引用户点击的营销点,所以标题是技术与艺术的结合。