A-A+

【DEDECMS采集基础教程】列表设置篇(一)

2008年07月10日 网站运维 评论 11 条 阅读 7,328 views 次

-------------------------------------------
注:写此文的目的是将自己对dede的采集经验总结下,适合新手使用
有什么不明白的地方可以PM我或在下面留言,我有时间会帮你解答。
对DEDE我也是新手,还有很多不明白的欢迎一起交流学习。
本教程我会分成几章写完,由于时间的关系先些第一部分

转载请注明Johnny原创:http://www.bokelife.com/show-414-1.html

【DEDECMS采集基础教程】列表设置篇(一)

【DEDECMS采集基础教程】采集规则篇(二)

【DEDECMS采集基础教程】进行采集篇(三)

【DEDECMS采集基础教程】过滤规则篇(四)

【DEDECMS采集基础教程】分页采集篇(五)

-------------------------------------------

以dede的站长学院>网页制作基础>HTML/XHTML教程为例,地址是

http://www.dedecms.com/web-art/htmlbase/HTML/

一,打开dedecms,进入【采集节点管理】,新建一个节点,模型我们就选择

image

图1.

1、名称的话自己定义一个,主要是标识作用。

2、来源就自己定义个也可以,写上采集对象的信息也可以。

3、防盗链就看目标站点的有无刷新限制,有的话就设置一下超时时间,这个的话比较难判断,具体可以测试一下就知道。

4、页面编码就比较重要,可以在页面点击右键来看该页面的编码。

image

图2.

三,设置采集列表:

先看看要采集的信息列表:

image

图3.

来源网址很重要的。列表的获取就是从这里获取的。

自己打开:http://www.dedecms.com/web-art/htmlbase/HTML/

点击分页看下几个分页之间的URL有什么规则
由此不难看出其中的规则可以看下面的url例子:
http://www.dedecms.com/web-art/htmlbase/HTML/list_33_【除此外其他都一样】.html
由此我们提取出来的规则就是换为变量值的形式
http://www.dedecms.com/web-art/htmlbase/HTML/list_33_[var:分页].html
而变量起始值是1,结束值是3,就代表1至3的列表页了。

用正则匹配置网址就看本身是否有比较特定的文章网址字符。

下面的html范围就比较重要,采集的实际文章地址就是从这里获取的。

我们看原dede的列表。我们在浏览器里查看源文件。

查找以下代码:

image

上图中选中部分就是文章列表内容的开始处,而且在整个页面中是唯一的,因此我们就提取到了开始的HTML了

结束的HTML一般可以在列表下面的分页处找到,也是提取在正个页面源码中唯一标识的代码,看下图选中部分:

image

下面的【手工指定网址】就是你想特别采集什么网址,就直接填上即可。

11 条留言  访客:10 条  博主:1 条

  1. ремонт офисов

    Кажется всем понравится.

  2. palstudy

    寂寞老大,可以教下我吗?我一点都不懂啊

  3. palstudy

    我把你的站链接在首页,可是为什么不显示呢?

  4. palstudy

    采集管理第一页
    选择数据规则模型
    规则类型: 频道模型 数据规则(旧)(勾后面这项)
    请选择采集规则: Dede文章模型
    请选择频道模型: 1普通文章

  5. palstudy

    采集管理第二页
    采集管理>新增采集节点:

    网址获取 内容规则

    网址获取 内容规则

    节点基本信息

    节点名称: 页面编码: GB2312 UTF8 BIG5
    图片相对网址: 物理路径:
    文章来源:(文档中使用) 内容匹配模式: 正则表达式 字符串
    以下选项仅在开启防盗链模式才需设定,如果目标网站没有防盗链功能,请不要开启,否则会降低采集速度。
    防盗链模式: 不开启 开启 资源下载超时时间: 秒
    引用网址: (一般为目标网站其中一个文章页的网址,需加http://)

    采集列表获取规则

    来源网址获取方式: 符合特定序列的列表网址 手工指定列表网址
    分页变量起始值: 变量结束值: 表示 [var:分页] 的范围)
    来源网址:

  6. palstudy

    上面填的对吗?

  7. palstudy

    以下的就不会填了:
    列表页中文章网址的命名规则:
    用正则匹配置网址: 文章网址需包含:–?– 网址不能包含:–?–
    限定HTML范围:
    (如果文章网址命名不规范,用正则的形式无法正确获得需要的网址,设置此选项来获得)
    起始HTML:–?–
    结束HTML:–?–

    如果你想手工指定要采集的列表网址或除了合符规则的列表网址外,还含有其它列表网址,请在下面指定:
    手工指定列表网址:–http://www.icesmall.cn/–?(每行一条网址,
    不支持使用变量) 对于部份符合规则,部份不符合规则的网址,可以把不符合规则的放在这里,例:像
    http://xx.com/aaa/index.html
    http://xx.com/aaa/list_2.html
    http://xx.com/aaa/list_3.html
    这样的网址,你可以用变量指定 list_[var:分页].html,
    然后把 http://xx.com/aaa/index.html(该网址不符分页规则) 填写在下面。

    [回复|Reply]

  8. palstudy

    选“正则表达式”还是“数据模型(旧)”呢

  9. palstudy

    最不懂的就是第四部分了

  10. palstudy

    是图4

    • Johnny

      @palstudy, 你好,不好意思,刚上来看到。

      palstudy :

      选“正则表达式”还是“数据模型(旧)”呢

      这里我选的是正则表达式
      图4是对采集目标的html代码的分析,找出里面的唯一标识代码来确定采集的范围

给我留言

注意: 评论者允许使用'@user空格'的方式将自己的评论通知另外评论者。例如, ABC是本文的评论者之一,则使用'@ABC '(不包括单引号)将会自动将您的评论发送给ABC。使用'@all ',将会将评论发送给之前所有其它评论者。请务必注意user必须和评论者名相匹配(大小写一致)。

Copyright © 寂寞部屋 保留所有权利.   Theme  Ality

用户登录