对一个做了2年没收录页面的网站做分析

SEO 文章 2021-06-10 10:54 1076 0 全屏看文

AI助手支持GPT4.0

这几天我的某个网站收录量破百万了。


/uploads/files_user1/question/60c17131c0fd7648832.png


破百万而已,18年那会,这个网站破400W,我都没开心。因为蜘蛛每天来蹲点,疯狂的抓,搞得同服务器的其他网站都打不开。所以关站了大半年。现在只是又回到了百万而已。


我在群里说了网站过百万的事,这时候有个小兄弟联系我说他网站做了2年了,百度基本上都没收录他的网站,希望我看看。


所以我就先习惯的去看下收录多少。在百度里输入:

site:www.他的网址.com

结果只有一个网页


/uploads/files_user1/question/60c171f524dac137546.png



我习惯性的理解:

这个网站是不是被K了。所谓的被K,就是做了违反百度规则的事或者是做了大型的改动。比如变换网站整体的框架、修改网站标题、大量重写URL,网站大面积出现不可访问状态。


所以问了他这些:


/uploads/files_user1/question/60c1734b81ef5550748.png


在得到没有任何大改动的情况下,我就打算查看源码。这是蜘蛛的角度:

我们要先明确一些事:

  1. 如果没给蜘蛛提供抓取渠道,那它会从首页进入。所以很多时候你就看到它只收录了一个首页

  2. 蜘蛛目前还没法很好的去解析通过脚本动态生成的链接。毕竟写过脚本的人知道,一个超链接我可以用N种方法生成,而链接里的href的内容,我可以用各种变量拼凑。 所以很难实别。


所以我在console里查看页面有多少超链接。纯正的,有href的那种。

document.querySelectorAll("a").forEach(function(a){console.log(a.href)})


如果在sanshu.cn里查看会出现各种文章链接。


/uploads/files_user1/question/60c17d3dd9f22637205.png



而在这个小兄弟的网站里出现的是:


/uploads/files_user1/question/60c17d6b33863414397.png


都是一些和文章枚关系的,比如分类、热门啥的。 这也没啥,大不了蜘蛛抓进去之后再去抓文章好了。

我点击其中一个进去后。


/uploads/files_user1/question/60c17dbdeab46433110.png


确实很多文章,我以就按照之前的方法查看链接


/uploads/files_user1/question/60c17dedde300362485.png


以就是这类和文章没有任何关系的链接。

所以等于说,蜘蛛根本抓不到任何文章!!!!!

不过蜘蛛的来源有三类:

  1. 首页抓进来,再通过文章超链接收录

  2. 百度push

  3. sitemap


百度push目前是百度最推荐的。网站融合方法参考:

http://www.sanshu.cn/a/14366.html.html


在我和小兄弟确认上面三种来源后,确定他只提供了第一种,而第一种如我们之前的分析,蜘蛛根本就找不到任何有用的文章页!。所以就导致只收录了首页。


最后感谢小兄弟送上的红包。多谢!


-EOF-

AI助手支持GPT4.0


国内超级便宜服务器

摸鱼人热门新闻聚合

钻级赞助商 我要加入

开发者在线工具

第三方支付技术请加QQ群

相关文章
网站静态化和伪静态的区别
从技术角度优化网站加载过多从而导致网站速度打开过慢的问题
如何降低谷歌蜘蛛的抓取频率和速度
网站如何向百度提交新的网页
百度站长平台新增网站的方法
随便看看
阿里云com、cn域名续费优惠码(2020年3月可用) 2862
线上防疫题库正确答案 2932
线上防疫题库正确答案(多选题) 4824
微信设置不可以使用小程序(游戏小程序) 5633
adsense申请已经支付的订单回退的网址 3212
BT面板查看网站入口、账号密码的命令 6008
ucloud海外服务器超级优惠券 3273
根据您的消费情况,您的延停权益已发生变化,变更后的延停权益为延停额度20.00元 5830
为什么我们喜欢迈克尔杰克逊。 4163
阿里云com、cn域名续费优惠码(2020年5月可用) 3585