【DEDECMS采集基础教程】采集规则篇(二)
——————————————-
注:写此文的目的是将自己对dede的采集经验总结下,适合新手使用
有什么不明白的地方可以PM我或在下面留言,我有时间会帮你解答。
对DEDE我也是新手,还有很多不明白的欢迎一起交流学习。
本教程我会分成几章写完,由于时间的关系先些第一部分
转载请注明Johnny原创:http://www.bokelife.com/show-415-1.html
——————————————-
在上一篇“【DEDECMS采集基础教程】列表设置篇(一)”中介绍了列表设置的方法,接下来我们进入采集规则的设置,上篇的作用
是获取到我们要采集的文章的地址,本篇是介绍如何从文章内容页面采集到文章的内容,也是整个采集模型中最为核心的部分。
一,设置采集内容:
本篇将以《HTML语言剖析(六)清单标记》为例子,其链接地址是:
http://www.dedecms.com/web-art/htmlbase/HTML/20060703/30201.html
由于该测试文章没有分页,所以我们的配置选择的是“不分页”,因此,分页链接区域html也可以不用填写任何内容,如下图1所示:
有分页文章的设置方法将会在以后进行介绍。
二,内容字段的设置:
进入这一步,就开始对页面源码进行着重的分析了,采集无非是分析html页面的结构从而获取我们所需的内容。
所以这里就要求我们对HTML代码有一定的认识,最起码你也该看懂html代码的结构。
通过查看页面源文件,我们可以查看到页面的html代码。
1、文章标题:
最简单的方法是直接搜索这个标题在html代码中出现的位置,例如本篇例文的标题是:HTML语言剖析(六)清单标记,因此直接搜
索出来在html代码总总共出现有两处,第一处的代码是
<title>HTML语言剖析(六)清单标记 – 织梦内容管理系统</title>
第二处出现的代码是:
<!–资讯标题–>
<div class=”title”>
<h1>HTML语言剖析(六)清单标记</h1>
</div>
<!–相关信息–>
由上面两处不难得出,第二处对于我们来捕获该文的标题比较方便,因为不用再去写规则过滤掉一些我们不需要的信息。经过再次
搜索全文HTML得出,<h1>和</h1>在文中具有唯一性,因此可以作为获取标题的起止html代码,设置如下图2:
2、文章作者:
如果你不想用该文章上所显示的作者,也可以留空,dede会自动把文章的作者名给你添加上“佚名”
要采集这个文章作者也不难,经过分析后,可以看出文章作者在HTML代码中出现的位置,先看看下图3中选中部分代码
这样文章作者的采集范围我们就可以定下来,其设置如下图4所示:
*若文章作者中有包含超链接,其代码表现形式为“<a href=”" ……>文章作者</a>”,我们也可以采取过滤规则将其过滤掉,其规
则如下:
{dede:trim}<a([^>]*)>{/dede:trim}
{dede:trim}</a>{/dede:trim}
设置方法可以见上图4中的过滤规则。
3、文章正文:
要找到文章正文在HTML代码中出现的位置,一个便捷的技巧就是先复制网页中正文的头几个字,然后在html代码中查找,就可以很
快定位出来,这也可以方便我们分析代码。
只要找出文章正文前的唯一性代码和文章结束时的唯一性代码,就可以抓出文章的正文。如下图5所示:
因为本文例文是没有分页内容,所以这里的“分页内容字段”不用选,若你想将文章正文中包含的多媒体资源(如图片、视频等)
下载到本地服务器,你可以勾上“下载字段里的多媒体资源”
过滤规则是比较重要的部分,通过正则规则可以将文章中的广告代码或垃圾代码、干扰代码过滤掉,不采集下来,若人家文章中有
挂了广告,我想你也不想免费给人家挂广告吧。
至于过滤规则部分将再以后讲解。
剩下的文章来源,发布时间和录入时间等,都和以上的设置大同小异的,采集与否都无所谓,就看你的需要了。
三,至此,节点和规则的设置都完成了,接下来就是采集,下载和导出(入库)了。
最后再强调一点的就是必须懂HTML代码,最起码得能看懂目标页面的html代码的大概组成,知道文章的内容是存放在哪些代码之间
。
下篇预告:进行采集篇,以图文的方式介绍如何进行采集,导出所采集到的数据入库
———————————————————–
请尊重作者劳动
转载请注明Johnny原创:http://www.bokelife.com/show-415-1.html
———————————————————–
作者:Johnny
原文链接:【DEDECMS采集基础教程】采集规则篇(二)
声明: 本站遵循 署名-非商业性使用-相同方式共享 3.0 共享协议. 转载请注明转自 寂寞部屋





Интересней не бывает.
OH MY GOD!
cool, clasno pishesh, prodolzhay v tom zhe duhe
pishite esche na podpbnue temu
开始无重复HTML:
结尾无重复HTML
开始无重复HTML:–
— 结尾无重复HTML:––
开始无重复HTML:
结尾无重复HTML
a href=’/articles/4/2008/11-14/11103243.htm’ target=’_blank’
/a
尖括号不能显示
结果采回来一大堆,把所有的链接内容都采回来了。
寂寞老大能告诉我怎么写吗?
要过滤链接内容,可以采用正则,你可以看看本博上面的另外一篇文章《【DEDECMS采集基础教程】过滤规则篇(四)》:http://www.bokelife.com/post-698-698/
里面有介绍如何过滤掉不想要的内容