百度搜索引擎目前推出了两种算法,分别为细雨算法和清风算法,这两个算法有很多相识的地方,主要都是打压标题作弊,比如关键词堆砌、文不对题等。
SEO网站优化工作之一使搜索引擎快速收录网站内容,提升网站排名。
搜索引擎如何识别网站原创文章?
1、采集
通过其他网站上采集生成的内容,现在是普遍网站会操作的,这种方式前期的效果会好,但是后期的网站浏览数据会掉的很厉害,搜索引擎也能识别出来。
2、内容生成器
通过文章生成器工具编辑一篇文章,设置一个吸引用户点击的标题,通过这种方式生成的文章效率很高,但是会造成文不对题,搜索引擎可能发现不了,但是欺骗不了用户,用户的阅读体验下降了,访客跳出率太高,搜索引擎通过此数据会知道的。
3、网站的结构
每个网站的结构都有它们的独到之处,比如:HTML标签的布局不同。
如果说网站的内容是采集其他网站的,提取标题、作者、时间和锚文本,没有很细心的前提下,万一都采集过来了,对搜索引擎不友好。
原创其实根本就没有明显的界限,因为有些东西它本身含有的知识点都是重复的。下面我为大家举一个例子。
例如,写“如何做西红柿炒鸡蛋”的文章,虽然会有千奇百怪的写法,但是,如果将1万个人关在小屋里,给他们笔和纸,让他们写,写完上交后。不难发现,其中会有几篇内容是相似的!如果我们作为审阅人,在不知情的情况下,会认为这些文章中有抄袭的!如果让搜索引擎来看这1万篇“如何做西红柿炒鸡蛋”的文章,又会如何呢?
在搜索引擎中,信息量十分的庞大,它又是如何辨别原创的呢?其实这是一个十分有趣的问题。百度判断文章的原创程度会有2次筛选:一次是蜘蛛爬行抓取文章时,对抓取数据的重复检测;一次是在搜索引擎读取文章内容的时候,对文章内容重复度的检查。
对于第一次筛选,是按照数据的相似度来判断的(包括了代码)。搜索引擎会根据无数的文章资源来判定一个相似度百分比(因为网络资源不断地更新,这个判断标准也不断的变化),超过一定的相似度,文章就会被pass掉。第一次筛选相对而言,并不严格。
第二次筛选,则是针对文章的主要内容(不包含代码),筛选的方法也是根据相似度来判断。搜索引擎它会把网页中没用的部分去掉(代码和一些没用的感叹词、介词等),通过分词,将一个页面的内容分成很多个关键词(这些关键词便是这个页面的核心内容),然后把页面中的关键词存储在数据库中,然后会通过数据库资源的对比,来决定文章的原创度(就像指纹一样,如果指纹完全符合,那就说明这个指纹是你的,对于文章而言,数据相同,便是抄袭的)。
对于第二次筛选有好处也有优点。通过去掉没用的词,如“的”“吗”等,再来对比会更加准确,但是同样的,一个页面除了文章外,还有很多其他的不同内容,因此,判别起来也会有写难度,甚至会造成抄袭文章也会收录的现象。
搜索引擎每天都会获取大量的数据,因此,判定文章原创度的标准也在浮动,因此会出现文章收录后被吐出来,或者没有收录的文章又被收录了。
原创文章对网站建设的重要性:
1、原创文章有利于蜘蛛的爬取
原创文章够吸引蜘蛛的爬取,搜索引擎会识别网站的文章在互联网没有相识的内容,会给予原创文章高的评价。
2、提高搜索用户体验
用户打开文章发现该内容以前有看过相识的,下次用户可能就不再访问网站了,PV值也随之下降,用户会觉得文章的可读性很差。
搜索引擎越来越重视用户的体验,通过用户对网站的评价和需求,可读性越高的网页被视为高质量的网页,搜索引擎会给予好的排名。
或许会有人疑问:为什么相同的文章发在不同的平台都会被收录。
这个问题不难回答。我们再看看上面举得写“如何做西红柿炒鸡蛋”的这个例子。对于搜索引擎而言,这样的文章里面的关键词几乎都是一样的(鸡蛋、西红柿等)。但是,这1万篇文章是每个人动手写的,没有抄袭的可能,但是因为作法相同,而出现了文章相似程度极高(指纹几乎都是一样的)的情况。面对这种情况,搜索引擎也会有自己的处理方法:把收录条件降低。这也造成了,伪原创的出现(伪原创文章收录相对而言还是不错的)。
除此之外,就算是抄袭文章,文章页除了文章外,还有很多其他的内容,这些都会是影响文章原创度的因素!另外,百度的数据库极为庞大,一天就处理数百万的文章,会出现反应迟缓的现象,造成文章先收录后吐出的现象。
还有比较特殊的一点是,搜索引擎的目的便是为用户提供有用的讯息,会尽可能的提供更多的搜索结果来满足用户的需求,特别是对于一些有时效性的新闻,搜索引擎会希望这些内容更快的传递,所以会收录一些内容相似、甚至内容完全一样的文章。
以上种种因素都会造成搜素引擎收录两篇几乎一样的文章的现象出现。
或许会有人疑问:为什么文章收录了,过段时间就没了?
如果是原创文章,这种几率很低,也并不是没有。如:(1)你的文章被高权重网站采集了(这种情况联系对方的站长)。(2)伪原创。对于伪装创,收录后过段时间就没了,这是正常的,对于百度而言,每天都会采集大量的信息,因此决定文章收录的数据库指纹种类也不断的变化,所以会出现此种情况。
或许会有人疑问:权重高为什么收录快?
举例子来说,买东西我们习惯性的看品牌(因为我们会认为该品牌的东西质量好)。搜索引擎也是一样,对于它默认的一些好的大型的网站,会默认为这网站的内容好,所以蜘蛛爬行的就会频繁。甚至有时候,这些网站纯粹的粘贴复制也会比小网站收录快很多。
为什么同一原创篇文章发到十几个,甚至上百个网站,而且大多都会被收录?
如果你不知道答案,可以继续往下看。
之所有我们对这个问题有疑惑,其实还是没有深入的去了解搜索引擎原理,其实搜索引擎眼中的网页和我们眼中的网页是不同的。
我们眼中的网页全是:图片+文字+视频
搜索引擎眼中的网页是:代码+关键词
比如一张图片,我们很容易判断是网学堂logo,还是本人李亚涛的头像,但是搜索引擎就比较困难,搜索只通过图片的alt标签来判读图片代表的意思。
同样你把一段文字变成白色,当背景也是白色的时候,你肯定很难发现这段文字,但是搜索引擎通过代码就非常容易发现。
通过举例,相信大家应该知道:我们眼中的网页跟搜索引擎眼中的网页其实是不一样的。
接下来我们再来分析原创文章如何判断?
你想像一下,你在一个网页看到一篇原创文章,你会哪些东西?
相信绝大多数朋友应该会看标题和内容,看过之后可以大概判断文章是否为原创。
但是搜索引擎并不会这样去看,搜索引擎会有一个爬虫,把整个文章所在的网页全部下载下来,然后对整个网页进行分析。
所以文章只是网页的一部分,网页中可能还会有其他一些信息,搜索引擎会把这些信息加在一起计算,然后再通过一些算法过滤,对比之前已收录的网页中是否有相似度比较高的网页,如果没有,那就判断是原创的。
搜索引擎收录的是网页,而不是网页中的文章。这个大家一定要清楚。
所以我们一开始的问题就有答案了:
同一原创篇文章发到十几个,甚至上百个网站,而且大多都会被收录,其实是正常的,因为搜索引擎并不是收录的文章,而是整个网页。
最后给大家一句话总结一下:
2篇完全相同的文章很多,2个完全相同的网页很少
如对本文有疑问,请提交到交流论坛,广大热心网友会为你解答!! 点击进入论坛