——————————————-
注:写此文的目的是将自己对dede的采集经验总结下,适合新手使用
有什么不明白的地方可以PM我或在下面留言,我有时间会帮你解答。
对DEDE我也是新手,还有很多不明白的欢迎一起交流学习。
本教程我会分成几章写完,由于时间的关系先些第一部分

转载请注明Johnny原创:http://www.bokelife.com/show-414-1.html

【DEDECMS采集基础教程】列表设置篇(一)

【DEDECMS采集基础教程】采集规则篇(二)

【DEDECMS采集基础教程】进行采集篇(三)

【DEDECMS采集基础教程】过滤规则篇(四)

【DEDECMS采集基础教程】分页采集篇(五)

——————————————-

以dede的站长学院>网页制作基础>HTML/XHTML教程为例,地址是

http://www.dedecms.com/web-art/htmlbase/HTML/

一,打开dedecms,进入【采集节点管理】,新建一个节点,模型我们就选择

image

图1.

1、名称的话自己定义一个,主要是标识作用。

2、来源就自己定义个也可以,写上采集对象的信息也可以。

3、防盗链就看目标站点的有无刷新限制,有的话就设置一下超时时间,这个的话比较难判断,具体可以测试一下就知道。

4、页面编码就比较重要,可以在页面点击右键来看该页面的编码。

image

图2.

三,设置采集列表:

先看看要采集的信息列表:

image

图3.

来源网址很重要的。列表的获取就是从这里获取的。

自己打开:http://www.dedecms.com/web-art/htmlbase/HTML/

点击分页看下几个分页之间的URL有什么规则
由此不难看出其中的规则可以看下面的url例子:
http://www.dedecms.com/web-art/htmlbase/HTML/list_33_【除此外其他都一样】.html
由此我们提取出来的规则就是换为变量值的形式
http://www.dedecms.com/web-art/htmlbase/HTML/list_33_[var:分页].html
而变量起始值是1,结束值是3,就代表1至3的列表页了。

用正则匹配置网址就看本身是否有比较特定的文章网址字符。

下面的html范围就比较重要,采集的实际文章地址就是从这里获取的。

我们看原dede的列表。我们在浏览器里查看源文件。

查找以下代码:

image

上图中选中部分就是文章列表内容的开始处,而且在整个页面中是唯一的,因此我们就提取到了开始的HTML了

结束的HTML一般可以在列表下面的分页处找到,也是提取在正个页面源码中唯一标识的代码,看下图选中部分:

image

下面的【手工指定网址】就是你想特别采集什么网址,就直接填上即可。