A-A+

【DEDECMS采集基础教程】进行采集篇(三)

2008年07月13日 网站运维 评论 2 条 阅读 4,757 views 次

-------------------------------------------

注:写此文的目的是将自己对dede的采集经验总结下,适合新手使用

有什么不明白的地方可以PM我或在下面留言,我有时间会帮你解答。

对DEDE我也是新手,还有很多不明白的欢迎一起交流学习。

本教程我会分成几章写完,由于时间的关系先些第一部分

转载请注明Johnny原创:http://www.bokelife.com/show-416-1.html

【DEDECMS采集基础教程】列表设置篇(一)

【DEDECMS采集基础教程】采集规则篇(二)

【DEDECMS采集基础教程】进行采集篇(三)

【DEDECMS采集基础教程】过滤规则篇(四)

【DEDECMS采集基础教程】分页采集篇(五)

-------------------------------------------

经过【DEDECMS采集基础教程】列表设置篇(一)【DEDECMS采集基础教程】采集规则篇(二)的介绍,我们基本掌握了采集规则

的写发。这一篇我们将介绍如何进行采集以及采集后的入库。

一,选择节点,进入采集

先在我们刚建立好的采集节点前面打勾,然后点“采集”按钮,如图1

image

图1.

二,采集详细设置

image

图2.

这里可以设置每页采集的数据条数,一般来说不要设置太大,否则有可能导致系统处理不过来而部分采集不到,建议别超过15;线

程数是指每次有多少个线程同时进行采集,线程数的增加可以加快采集速度,但相应的会增加服务器资源的占用,所以请慎用;假

若目标站点有防刷新限制,此处就可以根据目标站点的防刷新限制时间进行设置,假如没有就默认0秒可以了。

附加选项这三个设置从字面上应该可以很容易理解,这就根据你的实际需要进行选择了。
三,采集后的处理

采集完成后,点击“查看种子网址”进入查看采集的结果。

这里罗列出了采集回来的内容。可以点击进去查看采集到的内容有无问题的。具体看图3

image

图3.

温馨提醒:

1、在这个列表中有些数据的是否下载有可能显示的是“未下载”,引起的原因可能是网络的原因引起也有可能是你设置的采集条数

过大导致的。出现这样的情况我们仅需要在上面采集的“附加选项中”选择“仅下载未下载内容”,然后再进行一次采集即可。

2、在“节点的种子网址”列表中点击“[源网址]”可进入查看该条采集到的数据所在的原来页面

3、在“节点的种子网址”列表中点击“内容标题”这一栏的超链接可进入查看采集到的数据是否正确,同时也可以修改里面的内容

,最后记得保存即可,见图4

image

图4.

这里需要注意的是:“dede_archives.sortrank”和“dede_archives.pubdate”这两个字段的内容一般不要修改

4、假如要删除部分不满意的数据,可以在列表中在你要删除的数据前面打勾,然后按“删除所选网址”即可,这里支持批量操作

四,将采集的数据入库

这里有多个入口:

1、在节点管理列表中选择刚才采集的那个节点,然后点击下面的“导出数据按钮”进入入库操作

2、直接点击我们刚才采集的那个节点进入采集内容管理页面,点击右上方的“导出采集内容”按钮即可进入入库操作

3、选择节点后点击“采集”按钮进入采集页面,在右上方有“导出数据”按钮,点击后也可进入入库操作页面

进入后的入库操作页面见图5

image

图5.

首先选择要导入到的栏目,按“请选择”那里即可在弹出的窗口中选择你需要导入的栏目

发布选项这里一般默认即可,除非你不想马上发布。

每批导入默认是30条,这里修改与否都无所谓,因为导入操作的速度还是蛮快的

附带选项一般选“排除重复标题”,至于自动生成HTML那个选项建议先别生成,因为我们还要去批量提取摘要和关键字,这就是后

话了。

上面的配置OK以后,接下来就是按“提交”让系统自己去处理了。完成下面会有提示信息。

到这里,采集教程就基本结束,接下来我会介绍一些过滤规则和分页采集教程。喜欢的朋友敬请关注。

由于本人比较忙,相关的教程仍在陆续制作中,我会在第一时间将其发布,谢谢大家都支持。

2 条留言  访客:1 条  博主:1 条

  1. palstudy

    2、在“节点的种子网址”列表中点击“[源网址]”可进入查看该条采集到的数据所在的原来页面
    3、在“节点的种子网址”列表中点击“内容标题”

    —你说的这个,我怎么找不到呢?

    • Johnny

      @palstudy, 请参考图3,图片可以点击查看大图

给我留言

注意: 评论者允许使用'@user空格'的方式将自己的评论通知另外评论者。例如, ABC是本文的评论者之一,则使用'@ABC '(不包括单引号)将会自动将您的评论发送给ABC。使用'@all ',将会将评论发送给之前所有其它评论者。请务必注意user必须和评论者名相匹配(大小写一致)。

Copyright © 寂寞部屋 保留所有权利.   Theme  Ality

用户登录