对一个做了2年没收录页面的网站做分析

SEO 文章 2021-06-10 10:54 1075  0 全屏看文

这几天我的某个网站收录量破百万了。

破百万而已，18年那会，这个网站破400W，我都没开心。因为蜘蛛每天来蹲点，疯狂的抓，搞得同服务器的其他网站都打不开。所以关站了大半年。现在只是又回到了百万而已。

我在群里说了网站过百万的事，这时候有个小兄弟联系我说他网站做了2年了，百度基本上都没收录他的网站，希望我看看。

所以我就先习惯的去看下收录多少。在百度里输入:

site:www.他的网址.com

结果只有一个网页

我习惯性的理解：

这个网站是不是被K了。所谓的被K，就是做了违反百度规则的事或者是做了大型的改动。比如变换网站整体的框架、修改网站标题、大量重写URL，网站大面积出现不可访问状态。

所以问了他这些:

在得到没有任何大改动的情况下，我就打算查看源码。这是蜘蛛的角度：

我们要先明确一些事：

如果没给蜘蛛提供抓取渠道，那它会从首页进入。所以很多时候你就看到它只收录了一个首页
蜘蛛目前还没法很好的去解析通过脚本动态生成的链接。毕竟写过脚本的人知道，一个超链接我可以用N种方法生成，而链接里的href的内容，我可以用各种变量拼凑。所以很难实别。

所以我在console里查看页面有多少超链接。纯正的，有href的那种。

document.querySelectorAll("a").forEach(function(a){console.log(a.href)})

如果在sanshu.cn里查看会出现各种文章链接。

而在这个小兄弟的网站里出现的是:

都是一些和文章枚关系的，比如分类、热门啥的。这也没啥，大不了蜘蛛抓进去之后再去抓文章好了。

我点击其中一个进去后。

确实很多文章，我以就按照之前的方法查看链接

以就是这类和文章没有任何关系的链接。

所以等于说，蜘蛛根本抓不到任何文章！！！！！

不过蜘蛛的来源有三类：

百度push目前是百度最推荐的。网站融合方法参考:

在我和小兄弟确认上面三种来源后，确定他只提供了第一种，而第一种如我们之前的分析，蜘蛛根本就找不到任何有用的文章页！。所以就导致只收录了首页。

最后感谢小兄弟送上的红包。多谢！

-EOF-

原创申明:本文章为三叔原创。

原文出处:http://www.sanshu.cn/a/72734.html

您还可能感兴趣的文章