很多SEOer告诉用户:原创是王!
我想说:放屁!!!!!
当然放这个屁也是要判断的,如果你是UGC(User Generated Content 用户生成内容)那是另当别论。
为何如此一说?
你原创。1年1000篇不多吧。那一天就得3篇。我敢保证,连续1个月后基本上你的知识就架空了,该写的都写完了。
而且,就算你原创了又能咋地。权重高的采集网站一采集,蜘蛛很可能就判断为这是高权重网站的原创,而你是采集!
当然你可以使用复制文章自动追加版权信息来操作。
或者在文章下追加版权信息,如:
所以,我还是觉得,如果你做不到UGC,那倒不如采集来的痛快,一小时就是几千帖。
所以下面我们谈谈采集的事。
我们这篇文章只讨论采集端,而不是发布端,因为网站不一样,离线发布代码一般也不一样。
采集器的编写一般就是几个步骤:
1. 分析网页结构体。
2. 找到内容所在容器元素
3. 分析容器元素是否存在于源码(右击查看源码)里,并获取相关的元素
4. 获取节点内容,做进一步数据处理(去除无用数据)
这一步,最好还是使用正则表达式
5. 通过http请求发送数据到离线发布接口。
那一般采集器的知识体系如下:
1. dom的结构体,最起码你要知道在html里 id、tagname、class等基础信息。
这个可以参照:https://www.runoob.com/html/html-tutorial.html
2. 第三方的爬虫框架
这些框架可以让你更好的找到你想要的html内容
比如Java的jsoup
php的simple_html_dom
php爬虫类simple_html_dom对html的基本操作
3. 正则表达式的使用
正则表达式教程可以参考:正则表达式
原创申明:本文章为三叔原创。