工作室注册登录标签云赞助光荣榜

当前位置:首页 > 全栈分享 > 帝国cms > 正文

帝国cms采集教程附操作实例

发布时间:2019-06-12 23:01:24作者:魏义齐阅读:()

本文为博主原创文章,未经博主允许不得转载。

采集在以前是网站批量发布信息获得流量的手段,现在采集是换程序的必备技能,帝国cms又有很强大的采集功能,所以掌握帝国cms的采集功能就比较重要了,本文以实例向大家演示帝国cms采集的使用。

以我徒弟的网站(http://www.lidongchen.cn/)为例,采集他的技术分享栏目下的文章到我的前端乱炖栏目。

栏目→采集管理→管理采集节点→增加节点→选择栏目为前端乱炖,节点名称就叫技术分享;父节点不用选,这个是把不同栏目或不同网站的文章采集到同一个栏目下时使用,主要是为了方便管理子采集节点;采集页面地址写对方的栏目页地址,如果对方栏目有分页,则地址倒着写,比如:
栏目页地址倒着写
如果你直接采集对方文章页那么要勾选采集页面为直接内容页;采集页面地址方式二这个不用管;内容页地址前缀也不用管,这个应该是采集地址是相对地址时使用;图片/FLASH地址前缀,如果对方文章中的图片是相对地址,此处输入对方的域名;入库栏目在增加节点时就已经选择;开始时间、结束时间和备注就不用我说了。

选项需要修改的就只是每组入库数,采集肯定要把对方的图片也采集过来然后保存远程图片,这里把每组入库数改为1,防止入库超时。

附加选项采集自动入库勾选是,勾选入库后自动删除已导入的信息记录,其它的不用管。

过滤选项不用设置。

采集内容正则这个是重点,信息链接区域正则如官方编辑手册所说通常不需要设置,一般采集页面某一区域或缩小采集范围才设置的;信息页链接正则按左边的示例添加就是:
<p><a href="[!--newsurl--]" target="_blank">*</a></p>
标题图片正则要勾选保存本地,代码是:
<div class="imgdiv"><img src="[!--titlepic--]" class="carousel"></div>
如果标题图片获取的是文章配图,此处不填在下面内容页标题图片处设置;内容页,点开被采集列表页的一篇文章,查看源代码,标题正则代码是:
<h6>[!--title--]</h6>
发布时间:
<span>发布时间:[!--newstime--]</span>
标题图片正则,列表页已经设置过了,此处不用再管;内容简介正则:
<meta name="description" content="[!--smalltext--]">
新闻正文正则:
<span class="wenzhang">[!--newstext--]</span>
内容页分页采集设置,如果被采集文章页有分页此处需要设置。到这就设置完了,点击提交,然后点击预览
采集节点添加完成预览
采集地址
再点击预览,如果有url说明采集设置正确,没有说明采集设置的有问题,我点预览后如下:
采集内容页列表
再次点击预览,如下:
预览采集页面
这里可以看出哪些字段是可以采集成功的,如果你想采集到得没有采集到再返回修改。一切设置就绪后,点开始采集,采集并入库完毕后,在后台点审核信息就可以看见采集到的内容了
采集到的内容
全选后点审核就发布成功了。

部分文章可能采集不全,这就需要手工检查了,这个是帝国cms采集存在的一个问题,我想采集后大家肯定每篇文章都要再修改下,远程保存图片肯定要勾选,不然如果对方设置了防盗链,你文章的图片就加载不出来,还有tags、相关链接都得手动设置。

本篇教程只是以我徒弟的网站为例,实际采集中被采集网站可能有自定义字段、可能加了防采集(不过滤的话采集过来有字符串)、代码结构不规范等,这就需要大家在使用过程中自由发挥了,本文只是个例子,基本的使用而已。

本文标签:,您可以阅读与「」相关的所有文章

魏义齐全栈技术交流:魏义齐全栈技术交流

相关阅读

    无相关信息

上一篇:帝国cms tags详解(目的和意义、布局与优化、不同服务器的伪静态实现和在首页与文章页调用)下一篇:如何快速学习帝国cms

原创不易,您的赞助就是博主更新的动力!

赞助本站可在赞助光荣榜留下外链信息,支付宝扫此二维码可领红包

工作室注册登录标签云赞助光荣榜

最新会员
  • weiyiqi