如何编写自己的采集器

采集器文章 2019-12-30 15:27 1509  0 全屏看文

很多SEOer告诉用户：原创是王！

我想说：放屁！！！！！

当然放这个屁也是要判断的，如果你是UGC(User Generated Content 用户生成内容)那是另当别论。

为何如此一说？

你原创。1年1000篇不多吧。那一天就得3篇。我敢保证，连续1个月后基本上你的知识就架空了，该写的都写完了。

而且，就算你原创了又能咋地。权重高的采集网站一采集，蜘蛛很可能就判断为这是高权重网站的原创，而你是采集！

或者在文章下追加版权信息，如:

所以，我还是觉得，如果你做不到UGC，那倒不如采集来的痛快，一小时就是几千帖。

所以下面我们谈谈采集的事。

我们这篇文章只讨论采集端，而不是发布端，因为网站不一样，离线发布代码一般也不一样。

采集器的编写一般就是几个步骤:

1. 分析网页结构体。

2. 找到内容所在容器元素

3. 分析容器元素是否存在于源码(右击查看源码)里，并获取相关的元素

4. 获取节点内容，做进一步数据处理（去除无用数据）

这一步，最好还是使用正则表达式

5. 通过http请求发送数据到离线发布接口。

那一般采集器的知识体系如下:

1. dom的结构体，最起码你要知道在html里 id、tagname、class等基础信息。

2. 第三方的爬虫框架

这些框架可以让你更好的找到你想要的html内容

比如Java的jsoup

php的simple_html_dom

3. 正则表达式的使用

正则表达式教程可以参考:正则表达式

-EOF-

原创申明:本文章为三叔原创。

原文出处:http://www.sanshu.cn/a/25.html

您还可能感兴趣的文章