——————————————-

注:写此文的目的是将自己对dede的采集经验总结下,适合新手使用

有什么不明白的地方可以PM我或在下面留言,我有时间会帮你解答。

对DEDE我也是新手,还有很多不明白的欢迎一起交流学习。

本教程我会分成几章写完,由于时间的关系先些第一部分

转载请注明Johnny原创:http://www.bokelife.com/show-415-1.html

【DEDECMS采集基础教程】列表设置篇(一)

【DEDECMS采集基础教程】采集规则篇(二)

【DEDECMS采集基础教程】进行采集篇(三)

【DEDECMS采集基础教程】过滤规则篇(四)

【DEDECMS采集基础教程】分页采集篇(五)

——————————————-

在上一篇“【DEDECMS采集基础教程】列表设置篇(一)”中介绍了列表设置的方法,接下来我们进入采集规则的设置,上篇的作用

是获取到我们要采集的文章的地址,本篇是介绍如何从文章内容页面采集到文章的内容,也是整个采集模型中最为核心的部分。

一,设置采集内容:

本篇将以《HTML语言剖析(六)清单标记》为例子,其链接地址是:

http://www.dedecms.com/web-art/htmlbase/HTML/20060703/30201.html

由于该测试文章没有分页,所以我们的配置选择的是“不分页”,因此,分页链接区域html也可以不用填写任何内容,如下图1所示:

image

图1.

有分页文章的设置方法将会在以后进行介绍。
二,内容字段的设置:

进入这一步,就开始对页面源码进行着重的分析了,采集无非是分析html页面的结构从而获取我们所需的内容。

所以这里就要求我们对HTML代码有一定的认识,最起码你也该看懂html代码的结构。

通过查看页面源文件,我们可以查看到页面的html代码。

1、文章标题:

最简单的方法是直接搜索这个标题在html代码中出现的位置,例如本篇例文的标题是:HTML语言剖析(六)清单标记,因此直接搜

索出来在html代码总总共出现有两处,第一处的代码是

<title>HTML语言剖析(六)清单标记 – 织梦内容管理系统</title>

第二处出现的代码是:

<!–资讯标题–>

<div class=”title”>

<h1>HTML语言剖析(六)清单标记</h1>

</div>

<!–相关信息–>

由上面两处不难得出,第二处对于我们来捕获该文的标题比较方便,因为不用再去写规则过滤掉一些我们不需要的信息。经过再次

搜索全文HTML得出,<h1>和</h1>在文中具有唯一性,因此可以作为获取标题的起止html代码,设置如下图2:

image

图2.

2、文章作者:

如果你不想用该文章上所显示的作者,也可以留空,dede会自动把文章的作者名给你添加上“佚名”

要采集这个文章作者也不难,经过分析后,可以看出文章作者在HTML代码中出现的位置,先看看下图3中选中部分代码

image

图3.

这样文章作者的采集范围我们就可以定下来,其设置如下图4所示:

image

图4.

*若文章作者中有包含超链接,其代码表现形式为“<a href=”” ……>文章作者</a>”,我们也可以采取过滤规则将其过滤掉,其规

则如下:

{dede:trim}<a([^>]*)>{/dede:trim}

{dede:trim}</a>{/dede:trim}

设置方法可以见上图4中的过滤规则。

3、文章正文:

要找到文章正文在HTML代码中出现的位置,一个便捷的技巧就是先复制网页中正文的头几个字,然后在html代码中查找,就可以很

快定位出来,这也可以方便我们分析代码。

只要找出文章正文前的唯一性代码和文章结束时的唯一性代码,就可以抓出文章的正文。如下图5所示:

image

图5.

因为本文例文是没有分页内容,所以这里的“分页内容字段”不用选,若你想将文章正文中包含的多媒体资源(如图片、视频等)

下载到本地服务器,你可以勾上“下载字段里的多媒体资源”

过滤规则是比较重要的部分,通过正则规则可以将文章中的广告代码或垃圾代码、干扰代码过滤掉,不采集下来,若人家文章中有

挂了广告,我想你也不想免费给人家挂广告吧。

至于过滤规则部分将再以后讲解。
剩下的文章来源,发布时间和录入时间等,都和以上的设置大同小异的,采集与否都无所谓,就看你的需要了。
三,至此,节点和规则的设置都完成了,接下来就是采集,下载和导出(入库)了。

最后再强调一点的就是必须懂HTML代码,最起码得能看懂目标页面的html代码的大概组成,知道文章的内容是存放在哪些代码之间

下篇预告:进行采集篇,以图文的方式介绍如何进行采集,导出所采集到的数据入库

———————————————————–

请尊重作者劳动

转载请注明Johnny原创:http://www.bokelife.com/show-415-1.html

———————————————————–