这几天我的某个网站收录量破百万了。
破百万而已,18年那会,这个网站破400W,我都没开心。因为蜘蛛每天来蹲点,疯狂的抓,搞得同服务器的其他网站都打不开。所以关站了大半年。现在只是又回到了百万而已。
我在群里说了网站过百万的事,这时候有个小兄弟联系我说他网站做了2年了,百度基本上都没收录他的网站,希望我看看。
所以我就先习惯的去看下收录多少。在百度里输入:
site:www.他的网址.com
结果只有一个网页
我习惯性的理解:
这个网站是不是被K了。所谓的被K,就是做了违反百度规则的事或者是做了大型的改动。比如变换网站整体的框架、修改网站标题、大量重写URL,网站大面积出现不可访问状态。
所以问了他这些:
在得到没有任何大改动的情况下,我就打算查看源码。这是蜘蛛的角度:
我们要先明确一些事:
如果没给蜘蛛提供抓取渠道,那它会从首页进入。所以很多时候你就看到它只收录了一个首页
蜘蛛目前还没法很好的去解析通过脚本动态生成的链接。毕竟写过脚本的人知道,一个超链接我可以用N种方法生成,而链接里的href的内容,我可以用各种变量拼凑。 所以很难实别。
所以我在console里查看页面有多少超链接。纯正的,有href的那种。
document.querySelectorAll("a").forEach(function(a){console.log(a.href)})
如果在sanshu.cn里查看会出现各种文章链接。
而在这个小兄弟的网站里出现的是:
都是一些和文章枚关系的,比如分类、热门啥的。 这也没啥,大不了蜘蛛抓进去之后再去抓文章好了。
我点击其中一个进去后。
确实很多文章,我以就按照之前的方法查看链接
以就是这类和文章没有任何关系的链接。
所以等于说,蜘蛛根本抓不到任何文章!!!!!
不过蜘蛛的来源有三类:
首页抓进来,再通过文章超链接收录
百度push
sitemap
百度push目前是百度最推荐的。网站融合方法参考:
http://www.sanshu.cn/a/14366.html.html
在我和小兄弟确认上面三种来源后,确定他只提供了第一种,而第一种如我们之前的分析,蜘蛛根本就找不到任何有用的文章页!。所以就导致只收录了首页。
最后感谢小兄弟送上的红包。多谢!
原创申明:本文章为三叔原创。