现在的位置:首页>wordpress>正文

wordpress如何才能实现自动采集?WP-AutoPost插件帮你解决

2017年03月27日 ⁄ 共 3395字 评论 2 条

对于新闻源,百度的算法一改再改,明显对于原创的要求越来越高,但还是有很多朋友,想去做采集站的,福利老幺之前也在网上看到相关的代码来实现采集站的功能,但所受到的限制条件相当多,而且效果的话,也是大打折扣,今天这里来说一下一款能够实现自动采集的wordpress插件,功能的话,还算比较强大了.这个插件就是WP-AutoPost.

可能有朋友听说过这个,很多建站培训都使用的是wp,特别是在做采集站的时候wordpress的共能很强大。下面就给大家介绍如何实现wp的自动采集功能。

另外,网上很多地方都说,wp-autopost插件不错,采集起来很方便,支持定向采集,支持通配符匹配、或CSS选择器精确采集任何内容,支持采集正文分页内容,和dedecms的采集差不多,非常适合新手使用。

WP-AutoPost插件的下载安装

福利老幺也从网上找了一个免费版本,经测试还是可以使用的,下载的话,大家可以文章页面的最下方下载.

wordpress如何才能实现自动采集?WP-AutoPost插件帮你解决

这里先说一下基本的使用方法:

1.点击“新建任务”后,输入任务名称,即可创建新任务,创建好新任务之后可以在任务列表中查看到该任务,就可对该任务进行更多设置。(这一部分不需要修改设置,唯一需要改动的就是采集的时间。)

文章来源设置。在该选项卡下我们需要设置文章来源的 文章列表网址 及 具体文章的匹配规则。我们以采集”新浪互联网新闻“为例,文章列表网址为http://roll.tech.sina.com.cn/internet_worldlist/index.shtml,因此在 手工指定文章列表网址 中输入该网址即可,如下所示:

wordpress如何才能实现自动采集?WP-AutoPost插件帮你解决

2.文章网址匹配规则。文章网址匹配规则的设置非常简单,无需复杂设置,提供两种匹配模式,可以使用URL通配符匹配,也可以使用CSS选择器进行匹配,通常使用URL通配符匹配较为简单,但有时使用CSS选择器更为精确。

3.使用URL通配符匹配。通过点击列表网址 http://roll.tech.sina.com.cn/internet_worldlist/index.shtml 上的文章,我们可以发现每篇文章的URL都为如下结构:http://tech.sina.com.cn/i/2013-06-27/16328485884.shtml,因此将URL中变化的数字或字母替换为通配符 (*) 即可,如:http://tech.sina.com.cn/i/(*)/(*).shtml

4.使用CSS选择器进行匹配。使用CSS选择器进行匹配,我们只需要设置文章网址的CSS选择器即可,通过查看列表网址http://roll.tech.sina.com.cn/internet_worldlist/index.shtml的源代码即可轻松设置,找到列表网址下文章超链接的代码,如下所示:

5.可以看到,文章的超链接A标签在class为“contList”的标签内部,因此文章网址的CSS选择器只需要设置为 .contList a 即可,如下所示:

wordpress如何才能实现自动采集?WP-AutoPost插件帮你解决

6.设置完成之后,不知道设置是否正确,可以点击上图中的测试按钮,如果设置正确,将列出该列表网址下所有文章名称和对应的网页地址,如下所示:

wordpress如何才能实现自动采集?WP-AutoPost插件帮你解决

其他的设置可以不用修改

WP-AutoPost插件免费版本的注意

在测试的时候发现免费版wp-autopost插件采集的内容中会带上wp-autopost官网的链接,这样就很不爽了!发现了wp-autopost-function.php文件被加密了,既然加密了,那链接100%是隐藏在这个文件里了,破解之。

目前发出来的wp-autopost插件的压缩包里包含了两个文件夹wp-autopost是原版插件wp-autopost-po是wp-autopost破解版,另外希望大家支持正版,需要正版插件的话还是去官网购买比较好!下面来张插件界面截图,如下:

wordpress如何才能实现自动采集?WP-AutoPost插件帮你解决

WP-AutoPost插件使用说明

这里再补充一下,网络上关于这个插件的使用方法的一些说明.

1、安装WP-AutoPost

您可以通过从您的WP-AutoPost.ORG帐户下载ZIP文件手动安装WP-AutoPost。

如果您想手动安装WP-AutoPost,请按照下列步骤操作:

登录您的WP-AutoPost.ORG帐户。

转到“账户”部分。

下载您需要的WP-AutoPost插件(ZIP 文件)。

将下载的 ZIP 文件上传到您网站的’wp-contents/plugins’目录。

解压该ZIP 文件。这将创建一个目录。

登录到您的网站,转到“插件”,并启用它。

2、创建任务及基本设置

创建任务

点击“新建任务”后,输入任务名称,即可创建新任务,创建好新任务之后可以在任务列表中查看到该任务,就可对该任务进行更多设置。

基本设置

点击 “设置” 之后,可在 “基本设置选项卡” 下,进行如下设置:

任务名称:修改任务名称

分类目录:该任务采集文章发布到的分类目录

作者:该任务采集文章的发布作者,必须是wordpress里的注册用户

更新时间间隔:间隔多长时间检测一次该采集任务下是否有新文章可以更新

字符集:采集目标网站的字符集编码,默认为UTF8,如果目标网页字符集编码不是UTF8,抓取的网页会出现乱码,设置正确的字符集即可解决该问题(如何正确设置字符集)

下载远程图片:如果该任务下采集的文章里包含图片,可以选择是否下载远程图片到本地服务器,选择下载远程图片可以做以下更多设置:

将下载的图片保存到wordpress媒体库中

将图像保存到 Flickr

将图像保存到七牛云存储

将下载的第一张图片自动设为特色图片

下载的图片自动添加水印,可添加文本水印或图片水印

选择设置图片地址的属性 (如果包含源图片地址的属性不是src,可以在这里做设置)

下载远程附件:如果该任务下采集的文章里包含其他类型附件,可以选择是否下载这些附件文件到本地服务器,选择下载后可以做以下更多设置:

将下载的附件信息保存到wordpress媒体库中

自动标签:选择是否使用自动标签

标签列表:使用自动标签后如果文章包含列表里的关键词,将自动添加标签

匹配完整的单词:该设置对英文文章有效,中文文章请勿启用该设置

自动摘要:可自动将文章中第一段或前面几段文字设为摘要

发表状态:采集发布后文章的状态,可以是:已发布,草稿,等待复审

手动选择性采集:选择是,将手动选择哪些文章可以采集并发布

文章网址匹配规则

文章网址匹配规则的设置非常简单,无需复杂设置,提供两种匹配模式,可以使用URL通配符匹配,也可以使用CSS选择器进行匹配,通常使用URL通配符匹配较为简单,但有时使用CSS选择器更为精确。

1.使用URL通配符匹配
通过点击列表网址 http://roll.tech.sina.com.cn/internet_worldlist/index.shtml 上的文章,我们可以发现每篇文章的URL都为如下结构
http://tech.sina.com.cn/i/2013-06-27/16328485884.shtml

因此将URL中变化的数字或字母替换为通配符 (*) 即可,如:

http://tech.sina.com.cn/i/(*)/(*).shtml

内容过滤

文章内容过滤功能,可过滤掉正文中不希望发布的内容(如广告代码,版权信息等),可以使用CSS选择器过滤内容,也可以可设置两个关键词,删除掉两个关键词之间的内容,关键词2可以为空,表示删除掉关键词1之后的所有内容。

使用关键词过滤,如果设置不合适,可能会破坏html的结构,导致页面排版出错。如果可以用CSS选择器过滤内容,推荐使用CSS选择器方式,简单、精确、不会出错。

为什么产生乱码

WP-AutoPost 采集网页时默认字符集为UTF-8,如果目标网页的字符集不是UTF-8,采集的内容可能会出现乱码。

解决乱码问题

解决方法非常简单,只需查看目标网页的字符集,设置正确的字符集即可。

具体的一些其它操作,可以去官方的页面查看.

另外,这里福利老幺再补充一些常见的问题:

1.Auto Post如何不采集文章中的内链

这一点,其实设置很简单,因为这个插件支持HTML标签过滤.可过滤掉采集文章中的超链接,


评论 2 条 评论内容很精采,有内幕,而且绝对有干货

  1. 读者 2017年03月27日 23:07  @回复  Δ-49楼 回复

    可以,谢谢推荐。


    • 管理员
      管理员 2017年03月28日 07:51  @回复  ∇地下1层 回复

      尽量单个站点采集,不然服务器跟不上.

给我留言