<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>寂寞部屋 &#187; dede</title>
	<atom:link href="http://www.bokelife.com/Tag/dede/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.bokelife.com</link>
	<description>关注互联网，关注生活</description>
	<lastBuildDate>Wed, 10 Mar 2010 09:03:21 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.9.2</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>解决DEDECMS5.5在国外Linux主机下无法采集</title>
		<link>http://www.bokelife.com/dedecms-5-5-can-not-collect-1207/</link>
		<comments>http://www.bokelife.com/dedecms-5-5-can-not-collect-1207/#comments</comments>
		<pubDate>Fri, 30 Oct 2009 17:48:19 +0000</pubDate>
		<dc:creator>Johnny</dc:creator>
				<category><![CDATA[編程·程序設計]]></category>
		<category><![CDATA[dede]]></category>
		<category><![CDATA[dreamhost]]></category>
		<category><![CDATA[linux]]></category>
		<category><![CDATA[采集]]></category>

		<guid isPermaLink="false">http://www.bokelife.com/dedecms-5-5-can-not-collect-1207/</guid>
		<description><![CDATA[这阵子又把玩了下dedecms，看看这dedecms5.5的功能到底何等强大。于是乎上传到我的Dreamhost主机下，用个临时的域名跑了起来。玩着玩着便发现无法采集，连DEDE发布文章的下载远程图片和资源都无法使用。怪哉。
遂想起此前似乎见过文章说Dreamhost的主机禁用了allow_url_fopen，导致无法采集。于是乎在网上找啊找，找到了几篇文章均是自己编译php来让Dreamhost支持采集。于是乎也参照Dreamhost官网的介绍，透过ssh，折腾了大半天终于完成了编译好自己的php，兴高采烈的跑上系统采集一下，依旧失败告终。上传个探针一看，allow_url_fopen确实是启用着，怪哉。再继续Google之，随后反复测试证明，其实Dreamhost默认是启用了allow_url_fopen的，网上那些介绍的文章基本都是08年或以前的文章，所以想必是Dreamhost自己想通了放开这个限制吧。
折腾了两天，偏不信邪，上传多个Supesite和php168上去，安装、采集一气呵成。你个乖乖，原来是dede自己采集不了。纳闷。上dede官网搜寻一番，也发现有些网友也是在反应在国外Linux主机下采集不了。于是乎，终于找到了解决方法，就是改个文件而已。原先发现解决方法的那篇文章忘记在哪看了，只有本机的一个改后的文件而已，在此谢过那位老兄。
出问题的文件在include/dedehttpdown.class.php这个文件，用本文提供的附件覆盖上去后，便可以畅快的使用采集功能，在发表文章时亦能舒爽的使用“下载远程图片和资源”这个功能。经过比对这个文件，发现修改了两处地方。
1、注释掉第280行的代码，如下：
//		fputs($this-&#62;m_fp, $headString);
2、找到304行的代码，替换成如下代码：
$headString .= &#34;Connection: Close\r\n\r\n&#34;;
//fputs($this-&#62;m_fp,&#34;Connection: Close\r\n\r\n&#34;);
3、找到308行的代码，替换成如下代码：
$headString .= &#34;\r\n&#34;;
//fputs($this-&#62;m_fp,&#34;\r\n&#34;);
4、在315行的代码“//获取应答头状态信息”上面插入如下代码：
fputs($this-&#62;m_fp, $headString);
最后大功告成，你也可以下载我修改好的代码，点击这里下载。
路过这的也许还看过这些：如此抄袭？【DEDECMS采集基础教程】分页采集篇（五）【DEDECMS采集基础教程】过滤规则篇（四）【DEDECMS采集基础教程】进行采集篇（三）【DEDECMS采集基础教程】采集规则篇（二）【DEDECMS采集基础教程】列表设置篇（一）找回dedecms的管理员密码DreamHost 优惠码：50D3，省50$送3个独立域名Paypal让我丢了DreamhostDreamhost优惠码：BOKELIFE
&#169; Johnny for 寂寞部屋, 2009. &#124;
Permalink &#124;
One comment &#124;
Add to
del.icio.us

Post tags: dede, dreamhost, linux, 采集

Feed enhanced by Better Feed from  Ozh
]]></description>
			<content:encoded><![CDATA[<p>这阵子又把玩了下dedecms，看看这dedecms5.5的功能到底何等强大。于是乎上传到我的<a href="http://www.dreamhost.com/r.cgi?518281">Dreamhost</a>主机下，用个临时的域名跑了起来。玩着玩着便发现无法采集，连DEDE发布文章的下载远程图片和资源都无法使用。怪哉。</p>
<p>遂想起此前似乎见过文章说Dreamhost的主机禁用了allow_url_fopen，导致无法采集。于是乎在网上找啊找，找到了几篇文章均是自己编译php来让Dreamhost支持采集。于是乎也参照Dreamhost官网的介绍，透过ssh，折腾了大半天终于完成了编译好自己的php，兴高采烈的跑上系统采集一下，依旧失败告终。上传个探针一看，allow_url_fopen确实是启用着，怪哉。再继续Google之，随后反复测试证明，其实Dreamhost默认是启用了allow_url_fopen的，网上那些介绍的文章基本都是08年或以前的文章，所以想必是Dreamhost自己想通了放开这个限制吧。</p>
<p>折腾了两天，偏不信邪，上传多个Supesite和php168上去，安装、采集一气呵成。你个乖乖，原来是dede自己采集不了。纳闷。上dede官网搜寻一番，也发现有些网友也是在反应在国外Linux主机下采集不了。于是乎，终于找到了解决方法，就是改个文件而已。原先发现解决方法的那篇文章忘记在哪看了，只有本机的一个改后的文件而已，在此谢过那位老兄。</p>
<p>出问题的文件在include/dedehttpdown.class.php这个文件，用本文提供的附件覆盖上去后，便可以畅快的使用采集功能，在发表文章时亦能舒爽的使用“下载远程图片和资源”这个功能。经过比对这个文件，发现修改了两处地方。</p>
<p>1、注释掉第280行的代码，如下：</p>
<pre><span style="color: #008000">//		fputs($this-&gt;m_fp, $headString);</span></pre>
<p>2、找到304行的代码，替换成如下代码：</p>
<pre>$headString .= &quot;<span style="color: #8b0000">Connection: Close\r\n\r\n</span>&quot;;
<span style="color: #008000">//fputs($this-&gt;m_fp,&quot;Connection: Close\r\n\r\n&quot;);</span></pre>
<p>3、找到308行的代码，替换成如下代码：</p>
<pre>$headString .= &quot;<span style="color: #8b0000">\r\n</span>&quot;;
<span style="color: #008000">//fputs($this-&gt;m_fp,&quot;\r\n&quot;);</span></pre>
<p>4、在315行的代码“//获取应答头状态信息”上面插入如下代码：</p>
<pre><span style="color: #ffa500">fputs</span>($this-&gt;m_fp, $headString);</pre>
<p>最后大功告成，你也可以下载我修改好的代码，<a href="http://cid-8ee463e1147483f5.skydrive.live.com/self.aspx/.Public/Other/dedehttpdown.class.zip" target="_blank">点击这里下载</a>。</p>
<h3  class="related_post_title">路过这的也许还看过这些：</h3><ul class="related_post"><li><a href="http://www.bokelife.com/copy-like-this-727/" title="如此抄袭？">如此抄袭？</a></li><li><a href="http://www.bokelife.com/post-699-699/" title="【DEDECMS采集基础教程】分页采集篇（五）">【DEDECMS采集基础教程】分页采集篇（五）</a></li><li><a href="http://www.bokelife.com/post-698-698/" title="【DEDECMS采集基础教程】过滤规则篇（四）">【DEDECMS采集基础教程】过滤规则篇（四）</a></li><li><a href="http://www.bokelife.com/post-696-696/" title="【DEDECMS采集基础教程】进行采集篇（三）">【DEDECMS采集基础教程】进行采集篇（三）</a></li><li><a href="http://www.bokelife.com/post-695-695/" title="【DEDECMS采集基础教程】采集规则篇（二）">【DEDECMS采集基础教程】采集规则篇（二）</a></li><li><a href="http://www.bokelife.com/post-694-694/" title="【DEDECMS采集基础教程】列表设置篇（一）">【DEDECMS采集基础教程】列表设置篇（一）</a></li><li><a href="http://www.bokelife.com/reset-dedecms-admin-password-1205/" title="找回dedecms的管理员密码">找回dedecms的管理员密码</a></li><li><a href="http://www.bokelife.com/dreamhost-50d3-1202/" title="DreamHost 优惠码：50D3，省50$送3个独立域名">DreamHost 优惠码：50D3，省50$送3个独立域名</a></li><li><a href="http://www.bokelife.com/lost-dreamhost-by-paypal-927/" title="Paypal让我丢了Dreamhost">Paypal让我丢了Dreamhost</a></li><li><a href="http://www.bokelife.com/dreamhost-promo-code-bokelife-925/" title="Dreamhost优惠码：BOKELIFE">Dreamhost优惠码：BOKELIFE</a></li></ul><hr />
<p><small>&copy; Johnny for <a href="http://www.bokelife.com">寂寞部屋</a>, 2009. |
<a href="http://www.bokelife.com/dedecms-5-5-can-not-collect-1207/">Permalink</a> |
<a href="http://www.bokelife.com/dedecms-5-5-can-not-collect-1207/#comments">One comment</a> |
Add to
<a href="http://del.icio.us/post?url=http://www.bokelife.com/dedecms-5-5-can-not-collect-1207/&amp;title=解决DEDECMS5.5在国外Linux主机下无法采集">del.icio.us</a>
<br/>
Post tags: <a href="http://www.bokelife.com/Tag/dede/" rel="tag">dede</a>, <a href="http://www.bokelife.com/Tag/dreamhost/" rel="tag">dreamhost</a>, <a href="http://www.bokelife.com/Tag/linux/" rel="tag">linux</a>, <a href="http://www.bokelife.com/Tag/%E9%87%87%E9%9B%86/" rel="tag">采集</a><br/>
</small></p>
<p><small>Feed enhanced by <a href='http://planetozh.com/blog/my-projects/wordpress-plugin-better-feed-rss/'>Better Feed</a> from  <a href='http://planetozh.com/blog/'>Ozh</a></small></p>
]]></content:encoded>
			<wfw:commentRss>http://www.bokelife.com/dedecms-5-5-can-not-collect-1207/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>找回dedecms的管理员密码</title>
		<link>http://www.bokelife.com/reset-dedecms-admin-password-1205/</link>
		<comments>http://www.bokelife.com/reset-dedecms-admin-password-1205/#comments</comments>
		<pubDate>Tue, 20 Oct 2009 16:39:38 +0000</pubDate>
		<dc:creator>Johnny</dc:creator>
				<category><![CDATA[編程·程序設計]]></category>
		<category><![CDATA[dede]]></category>
		<category><![CDATA[重置密码]]></category>

		<guid isPermaLink="false">http://www.bokelife.com/reset-dedecms-admin-password-1205/</guid>
		<description><![CDATA[今日在帮一同事处理dede一些问题时发现忘记了管理员密码，囧。重新安装的话太费劲，便想进入mysql中修改密码，整个过程还是比较麻烦。本想从自己一个dedeV5.5的测试站点上复制密码来更新，但由于忘记密码的站点版本是V5.1的，覆盖密码后却怎么也登录不上。后来Google之，发现原来V5.1的加密算法跟V5.5的不同，生成的密码密文亦不同。几经周折，找到一加密后的密文是“c3949ba59abbe56e057f”，然后到sql中执行更新，具体脚本如下：
---将管理员密码重置为123456
Update `dede_admin` set pwd='c3949ba59abbe56e057f' where userid='admin'
由于要进入到数据库中去执行该语句，相对比较麻烦，于是写成个脚本，内容如下:
&#60;?php
/*
  作用：DEDECMS 重置管理员admin的密码为123456，适用于DedeCms V5
  方法：上传到服务器DEDE系统的目录，运行此文件，然后进入后台修改密码
  注意：重置后请立刻删除此文件!
  Author：Johnny
  WebSite: http://www.bokelife.com/
*/

require_once(dirname(__FILE__)."/include/config_base.php");
$dsql = new DedeSql(false);
$dsql-&#62;ExecuteNoneQuery("Update `#@__admin`
     set pwd='e10adc3949ba59abbe56e057' where userid='admin'");
$dsql-&#62;Close();
echo  '密码重置成功！新密码为123456。';
echo  '访问作者网站：&#60;a href=\'http://www.bokelife.com/\'&#62;www.bokelife.com&#60;/a&#62;';
?&#62;
将上面内容复制进入文本编辑器后保存为resetpass.php，上传到站点根目录，运行该文件，成功执行后请立即删除该文件。
注意：上面脚本是必须保证你的管理员用户名为“admin”的前提下方可执行，如果非admin，请将userid=&#8217;admin&#8217;中的admin改成你的用户名再执行即可。
具体文件可以点击这里下载：dede_resetpass.zip
压缩包中有两个文件，一个是（resetpass_5.php）用于dedeCMS V5.1的版本，另外一个（resetpass_5_5.php）是用于dedeCMS V5.5的版本。
路过这的也许还看过这些：解决DEDECMS5.5在国外Linux主机下无法采集第一个dede主题如此抄袭？【DEDECMS采集基础教程】分页采集篇（五）【DEDECMS采集基础教程】过滤规则篇（四）【DEDECMS采集基础教程】进行采集篇（三）【DEDECMS采集基础教程】采集规则篇（二）【DEDECMS采集基础教程】列表设置篇（一）
&#169; Johnny for 寂寞部屋, 2009. &#124;
Permalink &#124;
4 comments &#124;
Add to
del.icio.us

Post tags: dede, 重置密码

Feed enhanced by Better Feed from [...]]]></description>
			<content:encoded><![CDATA[<p>今日在帮一同事处理dede一些问题时发现忘记了管理员密码，囧。重新安装的话太费劲，便想进入mysql中修改密码，整个过程还是比较麻烦。本想从自己一个dedeV5.5的测试站点上复制密码来更新，但由于忘记密码的站点版本是V5.1的，覆盖密码后却怎么也登录不上。后来Google之，发现原来V5.1的加密算法跟V5.5的不同，生成的密码密文亦不同。几经周折，找到一加密后的密文是“<span style="color: #8b0000">c3949ba59abbe56e057f</span>”，然后到sql中执行更新，具体脚本如下：</p>
<pre><span style="color: #008000">---将管理员密码重置为123456</span>
<span style="color: #0000ff">Update</span> `dede_admin` <span style="color: #0000ff">set</span> pwd='<span style="color: #8b0000">c3949ba59abbe56e057f</span>' <span style="color: #0000ff">where</span> userid='<span style="color: #8b0000">admin</span>'</pre>
<p>由于要进入到数据库中去执行该语句，相对比较麻烦，于是写成个脚本，内容如下:</p>
<pre><span style="color: #0000ff">&lt;?</span>php
<span style="color: #008000">/*
  作用：DEDECMS 重置管理员admin的密码为123456，适用于DedeCms V5
  方法：上传到服务器DEDE系统的目录，运行此文件，然后进入后台修改密码
  注意：重置后请立刻删除此文件!
  Author：Johnny
  WebSite: http://www.bokelife.com/
*/</span>

<span style="color: #0000ff">require_once</span>(<span style="color: #ffa500">dirname</span>(__FILE__)."<span style="color: #8b0000">/include/config_base.php</span>");
$dsql = new DedeSql(<span style="color: #0000ff">false</span>);
$dsql-&gt;ExecuteNoneQuery("<span style="color: #8b0000">Update `#@__admin`
     set pwd='e10adc3949ba59abbe56e057' where userid='admin'</span>");
$dsql-&gt;<span style="color: #ffa500">Close</span>();
<span style="color: #0000ff">echo</span>  '<span style="color: #8b0000">密码重置成功！新密码为123456。</span>';
<span style="color: #0000ff">echo</span>  '<span style="color: #8b0000">访问作者网站：&lt;a href=\'http://www.bokelife.com/\'&gt;www.bokelife.com&lt;/a&gt;</span>';
<span style="color: #0000ff">?&gt;</span></pre>
<p>将上面内容复制进入文本编辑器后保存为<span style="color: #0000ff;">resetpass.php</span>，上传到站点根目录，运行该文件，成功执行后请立即删除该文件。</p>
<p><span style="color: #0080ff;"><strong>注意：上面脚本是必须保证你的管理员用户名为“admin”的前提下方可执行，如果非admin，请将userid=&#8217;admin&#8217;中的admin改成你的用户名再执行即可。</strong></span></p>
<p>具体文件可以点击这里下载：<a href="http://cid-8ee463e1147483f5.skydrive.live.com/self.aspx/.Public/Other/dede%5E_resetpass.zip" target="_blank">dede_resetpass.zip</a></p>
<p>压缩包中有两个文件，一个是（resetpass_5.php）用于dedeCMS V5.1的版本，另外一个（resetpass_5_5.php）是用于dedeCMS V5.5的版本。</p>
<h3  class="related_post_title">路过这的也许还看过这些：</h3><ul class="related_post"><li><a href="http://www.bokelife.com/dedecms-5-5-can-not-collect-1207/" title="解决DEDECMS5.5在国外Linux主机下无法采集">解决DEDECMS5.5在国外Linux主机下无法采集</a></li><li><a href="http://www.bokelife.com/first-dede-theme-832/" title="第一个dede主题">第一个dede主题</a></li><li><a href="http://www.bokelife.com/copy-like-this-727/" title="如此抄袭？">如此抄袭？</a></li><li><a href="http://www.bokelife.com/post-699-699/" title="【DEDECMS采集基础教程】分页采集篇（五）">【DEDECMS采集基础教程】分页采集篇（五）</a></li><li><a href="http://www.bokelife.com/post-698-698/" title="【DEDECMS采集基础教程】过滤规则篇（四）">【DEDECMS采集基础教程】过滤规则篇（四）</a></li><li><a href="http://www.bokelife.com/post-696-696/" title="【DEDECMS采集基础教程】进行采集篇（三）">【DEDECMS采集基础教程】进行采集篇（三）</a></li><li><a href="http://www.bokelife.com/post-695-695/" title="【DEDECMS采集基础教程】采集规则篇（二）">【DEDECMS采集基础教程】采集规则篇（二）</a></li><li><a href="http://www.bokelife.com/post-694-694/" title="【DEDECMS采集基础教程】列表设置篇（一）">【DEDECMS采集基础教程】列表设置篇（一）</a></li></ul><hr />
<p><small>&copy; Johnny for <a href="http://www.bokelife.com">寂寞部屋</a>, 2009. |
<a href="http://www.bokelife.com/reset-dedecms-admin-password-1205/">Permalink</a> |
<a href="http://www.bokelife.com/reset-dedecms-admin-password-1205/#comments">4 comments</a> |
Add to
<a href="http://del.icio.us/post?url=http://www.bokelife.com/reset-dedecms-admin-password-1205/&amp;title=找回dedecms的管理员密码">del.icio.us</a>
<br/>
Post tags: <a href="http://www.bokelife.com/Tag/dede/" rel="tag">dede</a>, <a href="http://www.bokelife.com/Tag/%e9%87%8d%e7%bd%ae%e5%af%86%e7%a0%81/" rel="tag">重置密码</a><br/>
</small></p>
<p><small>Feed enhanced by <a href='http://planetozh.com/blog/my-projects/wordpress-plugin-better-feed-rss/'>Better Feed</a> from  <a href='http://planetozh.com/blog/'>Ozh</a></small></p>
]]></content:encoded>
			<wfw:commentRss>http://www.bokelife.com/reset-dedecms-admin-password-1205/feed/</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
		<item>
		<title>第一个dede主题</title>
		<link>http://www.bokelife.com/first-dede-theme-832/</link>
		<comments>http://www.bokelife.com/first-dede-theme-832/#comments</comments>
		<pubDate>Tue, 02 Dec 2008 16:46:02 +0000</pubDate>
		<dc:creator>Johnny</dc:creator>
				<category><![CDATA[网站建设]]></category>
		<category><![CDATA[cms]]></category>
		<category><![CDATA[dede]]></category>
		<category><![CDATA[theme]]></category>
		<category><![CDATA[模板]]></category>

		<guid isPermaLink="false">http://www.bokelife.com/?p=832</guid>
		<description><![CDATA[忙乎了两天，终于弄出来dede的主题来。目前仅完成首页、列表页面、文章页面和搜索结果页面只几个模板，其他的还待继续。先上图。

首页截图

栏目页面

文章列表页面

文章内容页面
这个模板的制作源于公司的一个任务，找不到比较合适的模板，只得自己动手。第一次做dede的模板，还真有点郁闷。跟wp的模板真是天壤之别。无奈，只有硬着头皮上。这两天也够忙的了，为了这个模板，blog也没有写，貌似也落下不少事情。终于今晚搞得小有成就，弄几张图上来慰藉下自己，明天又得继续投入到模板的制作中去。图片中的数据都是随便采集回来当测试用，哈哈。
这个模板的设计是参考“推一把”模板，蓝色为主色调，评论部分加入了Ajax评论效果，自我感觉良好，呵呵。接下来呢，完善这个模板，至于里面的软件、问答等那些模板就没必要去做了，因为网站规划里没有，可以省下不少功夫。目前计划本周上线，就是不知道能否完成，感觉时间很赶。至于空间域名方面还没着买，郁闷。
路过这的也许还看过这些：第一个PHPOK模板【DEDECMS采集基础教程】分页采集篇（五）【DEDECMS采集基础教程】过滤规则篇（四）【DEDECMS采集基础教程】进行采集篇（三）【DEDECMS采集基础教程】采集规则篇（二）【DEDECMS采集基础教程】列表设置篇（一）解决DEDECMS5.5在国外Linux主机下无法采集找回dedecms的管理员密码diGu主题通过WP官网的审核Wordpress主题发布：diGu
&#169; Johnny for 寂寞部屋, 2008. &#124;
Permalink &#124;
12 comments &#124;
Add to
del.icio.us

Post tags: cms, dede, theme, 模板

Feed enhanced by Better Feed from  Ozh
]]></description>
			<content:encoded><![CDATA[<p>忙乎了两天，终于弄出来dede的主题来。目前仅完成首页、列表页面、文章页面和搜索结果页面只几个模板，其他的还待继续。先上图。</p>
<p style="text-align: center;"><a href="http://i3.6.cn/cvbnm/b3/0f/68/dcb8bae053708adc0f1ccbd79c70dc02.jpg" target="_blank"><img class="alignnone" title="首页" src="http://i3.6.cn/cvbnm/b3/0f/68/dcb8bae053708adc0f1ccbd79c70dc02.jpg" alt="" width="480" height="499" /></a><br />
首页截图</p>
<p style="text-align: center;"><a href="http://i3.6.cn/cvbnm/4f/de/98/37ff9d3608f452f543a551703d5a3a03.jpg" target="_blank"><img class="alignnone" title="栏目页面" src="http://i3.6.cn/cvbnm/4f/de/98/37ff9d3608f452f543a551703d5a3a03.jpg" alt="" width="480" height="560" /></a><br />
栏目页面</p>
<p style="text-align: center;"><a href="http://i3.6.cn/cvbnm/29/ec/18/f9b9e5386c4ad2af12308e057daa2e38.jpg" target="_blank"><img class="alignnone" title="文章列表" src="http://i3.6.cn/cvbnm/29/ec/18/f9b9e5386c4ad2af12308e057daa2e38.jpg" alt="" width="480" height="596" /></a><br />
文章列表页面</p>
<p style="text-align: center;"><a href="http://i3.6.cn/cvbnm/84/e1/63/02789133973f44ec24ded6cb18bec27a.jpg" target="_blank"><img class="alignnone" title="文章内容页面" src="http://i3.6.cn/cvbnm/84/e1/63/02789133973f44ec24ded6cb18bec27a.jpg" alt="" width="480" height="769" /></a><br />
文章内容页面</p>
<p>这个模板的制作源于公司的一个任务，找不到比较合适的模板，只得自己动手。第一次做dede的模板，还真有点郁闷。跟wp的模板真是天壤之别。无奈，只有硬着头皮上。这两天也够忙的了，为了这个模板，blog也没有写，貌似也落下不少事情。终于今晚搞得小有成就，弄几张图上来慰藉下自己，明天又得继续投入到模板的制作中去。图片中的数据都是随便采集回来当测试用，哈哈。</p>
<p>这个模板的设计是参考“推一把”模板，蓝色为主色调，评论部分加入了Ajax评论效果，自我感觉良好，呵呵。接下来呢，完善这个模板，至于里面的软件、问答等那些模板就没必要去做了，因为网站规划里没有，可以省下不少功夫。目前计划本周上线，就是不知道能否完成，感觉时间很赶。至于空间域名方面还没着买，郁闷。</p>
<h3  class="related_post_title">路过这的也许还看过这些：</h3><ul class="related_post"><li><a href="http://www.bokelife.com/first-phpok-theme-858/" title="第一个PHPOK模板">第一个PHPOK模板</a></li><li><a href="http://www.bokelife.com/post-699-699/" title="【DEDECMS采集基础教程】分页采集篇（五）">【DEDECMS采集基础教程】分页采集篇（五）</a></li><li><a href="http://www.bokelife.com/post-698-698/" title="【DEDECMS采集基础教程】过滤规则篇（四）">【DEDECMS采集基础教程】过滤规则篇（四）</a></li><li><a href="http://www.bokelife.com/post-696-696/" title="【DEDECMS采集基础教程】进行采集篇（三）">【DEDECMS采集基础教程】进行采集篇（三）</a></li><li><a href="http://www.bokelife.com/post-695-695/" title="【DEDECMS采集基础教程】采集规则篇（二）">【DEDECMS采集基础教程】采集规则篇（二）</a></li><li><a href="http://www.bokelife.com/post-694-694/" title="【DEDECMS采集基础教程】列表设置篇（一）">【DEDECMS采集基础教程】列表设置篇（一）</a></li><li><a href="http://www.bokelife.com/dedecms-5-5-can-not-collect-1207/" title="解决DEDECMS5.5在国外Linux主机下无法采集">解决DEDECMS5.5在国外Linux主机下无法采集</a></li><li><a href="http://www.bokelife.com/reset-dedecms-admin-password-1205/" title="找回dedecms的管理员密码">找回dedecms的管理员密码</a></li><li><a href="http://www.bokelife.com/digu-approved-by-wordpress-1199/" title="diGu主题通过WP官网的审核">diGu主题通过WP官网的审核</a></li><li><a href="http://www.bokelife.com/wordpress-digu-theme-1198/" title="Wordpress主题发布：diGu">Wordpress主题发布：diGu</a></li></ul><hr />
<p><small>&copy; Johnny for <a href="http://www.bokelife.com">寂寞部屋</a>, 2008. |
<a href="http://www.bokelife.com/first-dede-theme-832/">Permalink</a> |
<a href="http://www.bokelife.com/first-dede-theme-832/#comments">12 comments</a> |
Add to
<a href="http://del.icio.us/post?url=http://www.bokelife.com/first-dede-theme-832/&amp;title=第一个dede主题">del.icio.us</a>
<br/>
Post tags: <a href="http://www.bokelife.com/Tag/cms/" rel="tag">cms</a>, <a href="http://www.bokelife.com/Tag/dede/" rel="tag">dede</a>, <a href="http://www.bokelife.com/Tag/theme/" rel="tag">theme</a>, <a href="http://www.bokelife.com/Tag/%E6%A8%A1%E6%9D%BF/" rel="tag">模板</a><br/>
</small></p>
<p><small>Feed enhanced by <a href='http://planetozh.com/blog/my-projects/wordpress-plugin-better-feed-rss/'>Better Feed</a> from  <a href='http://planetozh.com/blog/'>Ozh</a></small></p>
]]></content:encoded>
			<wfw:commentRss>http://www.bokelife.com/first-dede-theme-832/feed/</wfw:commentRss>
		<slash:comments>12</slash:comments>
		</item>
		<item>
		<title>如此抄袭？</title>
		<link>http://www.bokelife.com/copy-like-this-727/</link>
		<comments>http://www.bokelife.com/copy-like-this-727/#comments</comments>
		<pubDate>Sun, 10 Aug 2008 13:09:29 +0000</pubDate>
		<dc:creator>Johnny</dc:creator>
				<category><![CDATA[博客话题]]></category>
		<category><![CDATA[dede]]></category>
		<category><![CDATA[抄袭]]></category>
		<category><![CDATA[版权]]></category>
		<category><![CDATA[转载]]></category>
		<category><![CDATA[采集]]></category>

		<guid isPermaLink="false">http://www.bokelife.com/?p=727</guid>
		<description><![CDATA[今日无聊时在查看寂寞部屋的访问记录时无意跳转到某君的blog上，更加无意的是看到其blog上抄袭寂寞部屋几篇文章，其厉害程度不亚于某些盗版书籍。这几篇文章分别是：【DEDECMS采集基础教程】过滤规则篇（四）、【DEDECMS采集基础教程】进行采集篇（三）、【DEDECMS采集基础教程】采集规则篇（二）、【DEDECMS采集基础教程】列表设置篇（一）。随后Johnny在百度和Google上搜了一番，总共发现有三个地方转载了我的这几篇博文。但这三处地方均有一个共同点：直接使用我的图片，将我的信息全部删除。这三个站分别是：星星家园、风云无忧技术论坛、护雪在线论坛（该论坛已访问不了，所以其转载程度如何Johnny无从查知）。
Johnny本想在其站上留言告知，谁知星星的blog关闭留言，风云的注册需要邀请，遂无奈在此写本文。寂寞部屋初开时曾转载了某君的几篇文章，那时是急于转载而忘记加上原文章来源。而后当此君写过一博文警告johnny时，johnny自觉羞愧，也因此开始尊重版权，无论从哪里转载文章均会注明文章来源，也尽量转载文章，尽量原创。：）有点扯远了，johnny总是如此轻易去回忆。对于这次自己的文章给人如此转载，我也感觉有点不爽，辛苦写了几个晚上的教程就这样给人转了不留痕迹。
现在希望转载这几篇文章的某君能看到本文后修改下文章，如果不想加上本站链接的，那劳烦您老将文章删除。也许互联网上的抄袭成为了理所当然的，或许很多人都习惯了这种拿来主义，习惯了将抄袭直接转化为原创，然而，倘若某君仍执迷不悟的话，johnny会考虑采取进一步行动。
最后想说的是若各位同学若看得起在下的，Johnny欢迎你们转载本站文章，但最少加上文章出处和注明版权。若这点不能满足的话，那请您高抬贵手，别转载了，johnny不喜欢这样的转载方式！欢迎有不同意见的同学在下面留言告知交换意见，大家共同学习，共同进步。：）若johnny在寂寞部屋中有任何不妥之处，也随时欢迎各位同学不吝赐教指正，谢谢！Johnny承诺绝对尊重版权和文章作者！
路过这的也许还看过这些：解决DEDECMS5.5在国外Linux主机下无法采集【DEDECMS采集基础教程】分页采集篇（五）【DEDECMS采集基础教程】过滤规则篇（四）【DEDECMS采集基础教程】进行采集篇（三）【DEDECMS采集基础教程】采集规则篇（二）【DEDECMS采集基础教程】列表设置篇（一）找回dedecms的管理员密码第一个dede主题谈博论博autosave
&#169; Johnny for 寂寞部屋, 2008. &#124;
Permalink &#124;
3 comments &#124;
Add to
del.icio.us

Post tags: dede, 抄袭, 版权, 转载, 采集

Feed enhanced by Better Feed from  Ozh
]]></description>
			<content:encoded><![CDATA[<p>今日无聊时在查看寂寞部屋的访问记录时无意跳转到某君的blog上，更加无意的是看到其blog上抄袭寂寞部屋几篇文章，其厉害程度不亚于某些盗版书籍。这几篇文章分别是：<a title="Permanent Link to 【DEDECMS采集基础教程】过滤规则篇（四）" rel="bookmark" href="../post-698-698/">【DEDECMS采集基础教程】过滤规则篇（四）</a>、<a title="Permanent Link to 【DEDECMS采集基础教程】进行采集篇（三）" rel="bookmark" href="../post-696-696/">【DEDECMS采集基础教程】进行采集篇（三）</a>、<a title="Permanent Link to 【DEDECMS采集基础教程】采集规则篇（二）" rel="bookmark" href="../post-695-695/">【DEDECMS采集基础教程】采集规则篇（二）</a>、<a title="Permanent Link to 【DEDECMS采集基础教程】列表设置篇（一）" rel="bookmark" href="../post-694-694/">【DEDECMS采集基础教程】列表设置篇（一）</a>。随后Johnny在百度和Google上搜了一番，总共发现有三个地方转载了我的这几篇博文。但这三处地方均有一个共同点：直接使用我的图片，将我的信息全部删除。这三个站分别是：<a title="抄袭者blog" href="http://www.luotx.cn/catalog.asp?cate=15&amp;page=2" target="_blank">星星家园</a>、<a href="http://bbs.fengyn.com/read.php?tid=554" target="_blank">风云无忧技术论坛</a>、<a href="http://bbs.uniorg.org/forumdisplay.php?fid=6&amp;filter=type&amp;typeid=84" target="_blank">护雪在线论坛</a>（该论坛已访问不了，所以其转载程度如何Johnny无从查知）。</p>
<p>Johnny本想在其站上留言告知，谁知星星的blog关闭留言，风云的注册需要邀请，遂无奈在此写本文。寂寞部屋初开时曾转载了某君的几篇文章，那时是急于转载而忘记加上原文章来源。而后当此君写过一博文警告johnny时，johnny自觉羞愧，也因此开始尊重版权，无论从哪里转载文章均会注明文章来源，也尽量转载文章，尽量原创。：）有点扯远了，johnny总是如此轻易去回忆。对于这次自己的文章给人如此转载，我也感觉有点不爽，辛苦写了几个晚上的教程就这样给人转了不留痕迹。</p>
<p>现在希望转载这几篇文章的某君能看到本文后修改下文章，如果不想加上本站链接的，那劳烦您老将文章删除。也许互联网上的抄袭成为了理所当然的，或许很多人都习惯了这种拿来主义，习惯了将抄袭直接转化为原创，然而，倘若某君仍执迷不悟的话，johnny会考虑采取进一步行动。</p>
<p>最后想说的是若各位同学若看得起在下的，Johnny欢迎你们转载本站文章，但最少加上文章出处和注明版权。若这点不能满足的话，那请您高抬贵手，别转载了，johnny不喜欢这样的转载方式！欢迎有不同意见的同学在下面留言告知交换意见，大家共同学习，共同进步。：）若johnny在寂寞部屋中有任何不妥之处，也随时欢迎各位同学不吝赐教指正，谢谢！Johnny承诺绝对尊重版权和文章作者！</p>
<h3  class="related_post_title">路过这的也许还看过这些：</h3><ul class="related_post"><li><a href="http://www.bokelife.com/dedecms-5-5-can-not-collect-1207/" title="解决DEDECMS5.5在国外Linux主机下无法采集">解决DEDECMS5.5在国外Linux主机下无法采集</a></li><li><a href="http://www.bokelife.com/post-699-699/" title="【DEDECMS采集基础教程】分页采集篇（五）">【DEDECMS采集基础教程】分页采集篇（五）</a></li><li><a href="http://www.bokelife.com/post-698-698/" title="【DEDECMS采集基础教程】过滤规则篇（四）">【DEDECMS采集基础教程】过滤规则篇（四）</a></li><li><a href="http://www.bokelife.com/post-696-696/" title="【DEDECMS采集基础教程】进行采集篇（三）">【DEDECMS采集基础教程】进行采集篇（三）</a></li><li><a href="http://www.bokelife.com/post-695-695/" title="【DEDECMS采集基础教程】采集规则篇（二）">【DEDECMS采集基础教程】采集规则篇（二）</a></li><li><a href="http://www.bokelife.com/post-694-694/" title="【DEDECMS采集基础教程】列表设置篇（一）">【DEDECMS采集基础教程】列表设置篇（一）</a></li><li><a href="http://www.bokelife.com/reset-dedecms-admin-password-1205/" title="找回dedecms的管理员密码">找回dedecms的管理员密码</a></li><li><a href="http://www.bokelife.com/first-dede-theme-832/" title="第一个dede主题">第一个dede主题</a></li><li><a href="http://www.bokelife.com/talk-about-blog-710/" title="谈博论博">谈博论博</a></li><li><a href="http://www.bokelife.com/wp-autosave-707/" title="autosave">autosave</a></li></ul><hr />
<p><small>&copy; Johnny for <a href="http://www.bokelife.com">寂寞部屋</a>, 2008. |
<a href="http://www.bokelife.com/copy-like-this-727/">Permalink</a> |
<a href="http://www.bokelife.com/copy-like-this-727/#comments">3 comments</a> |
Add to
<a href="http://del.icio.us/post?url=http://www.bokelife.com/copy-like-this-727/&amp;title=如此抄袭？">del.icio.us</a>
<br/>
Post tags: <a href="http://www.bokelife.com/Tag/dede/" rel="tag">dede</a>, <a href="http://www.bokelife.com/Tag/%e6%8a%84%e8%a2%ad/" rel="tag">抄袭</a>, <a href="http://www.bokelife.com/Tag/%e7%89%88%e6%9d%83/" rel="tag">版权</a>, <a href="http://www.bokelife.com/Tag/%e8%bd%ac%e8%bd%bd/" rel="tag">转载</a>, <a href="http://www.bokelife.com/Tag/%E9%87%87%E9%9B%86/" rel="tag">采集</a><br/>
</small></p>
<p><small>Feed enhanced by <a href='http://planetozh.com/blog/my-projects/wordpress-plugin-better-feed-rss/'>Better Feed</a> from  <a href='http://planetozh.com/blog/'>Ozh</a></small></p>
]]></content:encoded>
			<wfw:commentRss>http://www.bokelife.com/copy-like-this-727/feed/</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>【DEDECMS采集基础教程】分页采集篇（五）</title>
		<link>http://www.bokelife.com/post-699-699/</link>
		<comments>http://www.bokelife.com/post-699-699/#comments</comments>
		<pubDate>Wed, 16 Jul 2008 16:07:59 +0000</pubDate>
		<dc:creator>Johnny</dc:creator>
				<category><![CDATA[网站建设]]></category>
		<category><![CDATA[cms]]></category>
		<category><![CDATA[dede]]></category>
		<category><![CDATA[教程]]></category>
		<category><![CDATA[采集]]></category>

		<guid isPermaLink="false">http://www.bokelife.com/?p=699</guid>
		<description><![CDATA[【DEDECMS采集基础教程】分页采集篇（五）
&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;-
注：写此文的目的是将自己对dede的采集经验总结下，适合新手使用
有什么不明白的地方可以PM我或在下面留言，我有时间会帮你解答。
对DEDE我也是新手，还有很多不明白的欢迎一起交流学习。
本教程我会分成几章写完，由于时间的关系先些第一部分
转载请注明Johnny原创：http://www.bokelife.com/show-419-1.html
【DEDECMS采集基础教程】列表设置篇（一）
【DEDECMS采集基础教程】采集规则篇（二）
【DEDECMS采集基础教程】进行采集篇（三）
【DEDECMS采集基础教程】过滤规则篇（四）
【DEDECMS采集基础教程】分页采集篇（五）
&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;-
分页采集，一直是困扰很多站长的问题，对于文章内容的采集来说，并不难，最难的莫过于分页采集。因为多种多样的分页格式，在采集的时候怎样去取分页的区域，怎样才不会采集回来重复的内容，这确实是个头疼的问题。有次johnny在写采集规则的时候就因为疏忽，结果采集回来的文章内容重复了，所以johnny决定单独写此文来。在写本文的时候，johnny也思考过该怎么去写好本文，毕竟在这方面johnny也不是懂很多，希望能和各位一起学习研究。
接下来就以一个例子来分析，本次的例子网址是：
http://www.ladysfashion.cn/dress/dapei/20080321/1319.html
1、打开本文例子网址，把页面拉到下面，可以看到其分页，见下面图1：
这是典型的DEDE分页，有上下页，也列出了所有的分页。对于这种分页，我们在采集规则时，在“文档是否分页”一项中选择的是“全部列出的分页列表”。例如某些文档的翻页仅有上下也方式或者仅仅列出部分页码，其余内容用“&#8230;”或“更多”这种方式，那这项应选择的是“上下页形式或不完整的分页列表”。
对于分页类型的判断，我们应当多打开几个文章看看其翻页方式，再来决定选择分页方式，特别有些文章仅有单页并没有多页内容，他的翻页也就相应的没有，往往我们很容易的以为他的文章并没有分页，导致某些有分页的文章采集不到多页内容。分页方式的选择决定了采集回来的内容的完整性。
下面以一个错误的例子看看选择错误导致采集回来的内容重复：
在采集本文例子页面的时候，这里我选择的是“上下页形式或不完整的分页列表”，测试的时候是正常可以采集到内容，但当真正采集的时候，发觉采集回来的内容重复了，采集回来的结果看下图2：
若将上面例子的方式改为“全部列出的分页列表”，这样采集回来的结果见下图3：
从图2跟图3的对比，后者不会产生重复内容，而且在文章首行也不会多出“#e#”这个来。
举出这两个例子也是为说明此处选择的重要性。
2、分页链接区域匹配规则
这部分的选择也是有一定的技巧。假如有些文章有单页形式，也有多页形式，这时我们应打开有多页的文章 ，然后查看其源文件。
例如本文例子，我们首先要找到其分页区域HTML代码，见下图4选中部分：
接下来是选出具有唯一标识的代码作为分页链接区域的起始HTML，这点类似于其他部分的采集。本文例子的配置如下图5：
3、规则写好以后，在“采集节点管理”页面中的“测试”按钮可以测试采集规则能否采集到内容。但对于分页采集，该功能并不能测试出分页采集规则写得对不对。所以最好的方式是把采集规则的来源网址中分页变量起始值改为1页，然后实际采集，再看看采集回来的内容是否正确，若有错误就修改分页采集部分，再清空节点采集到的内容，再采集，如此反复直至完美为止。
至此，采集教程也就告一段落了，也许以后有时间johnny会再整理出采集模型的相关教程。若有什么问题，欢迎到本站给我留言一起研究学习或者到dede官方论坛去交流，那里的高手很多。
路过这的也许还看过这些：【DEDECMS采集基础教程】过滤规则篇（四）【DEDECMS采集基础教程】进行采集篇（三）【DEDECMS采集基础教程】采集规则篇（二）【DEDECMS采集基础教程】列表设置篇（一）解决DEDECMS5.5在国外Linux主机下无法采集第一个dede主题如此抄袭？找回dedecms的管理员密码chi.mp系列教程引导chi.mp使用教程(五)
&#169; Johnny for 寂寞部屋, 2008. &#124;
Permalink &#124;
No comment &#124;
Add to
del.icio.us

Post tags: cms, dede, 教程, 采集

Feed enhanced by Better Feed from  Ozh
]]></description>
			<content:encoded><![CDATA[<p>【DEDECMS采集基础教程】分页采集篇（五）</p>
<p>&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;-<br />
注：写此文的目的是将自己对dede的采集经验总结下，适合新手使用<br />
有什么不明白的地方可以PM我或在下面留言，我有时间会帮你解答。<br />
对DEDE我也是新手，还有很多不明白的欢迎一起交流学习。<br />
本教程我会分成几章写完，由于时间的关系先些第一部分<br />
转载请注明Johnny原创：<a href="http://www.bokelife.com/show-419-1.html">http://www.bokelife.com/show-419-1.html</a></p>
<p><a href="http://www.bokelife.com/show-414-1.html">【DEDECMS采集基础教程】列表设置篇（一）</a></p>
<p><a href="http://www.bokelife.com/show-415-1.html">【DEDECMS采集基础教程】采集规则篇（二）</a></p>
<p><a href="http://www.bokelife.com/show-416-1.html">【DEDECMS采集基础教程】进行采集篇（三）</a></p>
<p><a href="http://www.bokelife.com/show-418-1.html">【DEDECMS采集基础教程】过滤规则篇（四）</a></p>
<p><a href="http://www.bokelife.com/show-419-1.html">【DEDECMS采集基础教程】分页采集篇（五）</a><br />
&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;-</p>
<p>分页采集，一直是困扰很多站长的问题，对于文章内容的采集来说，并不难，最难的莫过于分页采集。因为多种多样的分页格式，在采集的时候怎样去取分页的区域，怎样才不会采集回来重复的内容，这确实是个头疼的问题。有次johnny在写采集规则的时候就因为疏忽，结果采集回来的文章内容重复了，所以johnny决定单独写此文来。在写本文的时候，johnny也思考过该怎么去写好本文，毕竟在这方面johnny也不是懂很多，希望能和各位一起学习研究。</p>
<p>接下来就以一个例子来分析，本次的例子网址是：<br />
<a href="http://www.ladysfashion.cn/dress/dapei/20080321/1319.html">http://www.ladysfashion.cn/dress/dapei/20080321/1319.html</a></p>
<p>1、打开本文例子网址，把页面拉到下面，可以看到其分页，见下面图1：</p>
<div class="wp-caption alignnone" style="width: 464px"><a class="highslide-image" onclick="return hs.expand(this);" href="http://ra9iyg.blu.livefilestore.com/y1pvuTRQzYFmkdSVuCSARJjZREuCIgeQN4e4yaLP58HyTfvjOCj2KS_darNSKkBGAw2FR2xfG_5Ex_-jl0hOjRmEg/286_1.jpg"><img title="Click to enlarge" src="http://ra9iyg.blu.livefilestore.com/y1pvuTRQzYFmkdSVuCSARJjZREuCIgeQN4e4yaLP58HyTfvjOCj2KS_darNSKkBGAw2FR2xfG_5Ex_-jl0hOjRmEg/286_1.jpg" alt="image" width="454" height="114" /></a><p class="wp-caption-text">图1.</p></div>
<p>这是典型的DEDE分页，有上下页，也列出了所有的分页。对于这种分页，我们在采集规则时，在“文档是否分页”一项中选择的是“全部列出的分页列表”。例如某些文档的翻页仅有上下也方式或者仅仅列出部分页码，其余内容用“&#8230;”或“更多”这种方式，那这项应选择的是“上下页形式或不完整的分页列表”。<br />
对于分页类型的判断，我们应当多打开几个文章看看其翻页方式，再来决定选择分页方式，特别有些文章仅有单页并没有多页内容，他的翻页也就相应的没有，往往我们很容易的以为他的文章并没有分页，导致某些有分页的文章采集不到多页内容。分页方式的选择决定了采集回来的内容的完整性。</p>
<p>下面以一个错误的例子看看选择错误导致采集回来的内容重复：<br />
在采集本文例子页面的时候，这里我选择的是“上下页形式或不完整的分页列表”，测试的时候是正常可以采集到内容，但当真正采集的时候，发觉采集回来的内容重复了，采集回来的结果看下图2：</p>
<div class="wp-caption alignnone" style="width: 490px"><a class="highslide-image" onclick="return hs.expand(this);" href="http://ra9iyg.blu.livefilestore.com/y1pLqIxcVC0oUVYWWmI_ZpSwAnLrinJ2VH8vuUiK0FqfL0aVsSy8_iDb7Ly-bmhMSglSS01-NZU-pFOTz399vm_pQ/287_2.jpg"><img title="Click to enlarge" src="http://ra9iyg.blu.livefilestore.com/y1pLqIxcVC0oUVYWWmI_ZpSwAnLrinJ2VH8vuUiK0FqfL0aVsSy8_iDb7Ly-bmhMSglSS01-NZU-pFOTz399vm_pQ/287_2.jpg" alt="" width="480" height="149" /></a><p class="wp-caption-text">图2.</p></div>
<p>若将上面例子的方式改为“全部列出的分页列表”，这样采集回来的结果见下图3：</p>
<div class="wp-caption alignnone" style="width: 492px"><a class="highslide-image" onclick="return hs.expand(this);" href="http://ra9iyg.blu.livefilestore.com/y1pLqIxcVC0oUXVBKeG5xztI_viDDnje-yT6Y0srLROXLyCT_EIcMtYFi69R27i4FtEZaCfI5r63lNe8WRuS7wp3Q/288_3.jpg"><img title="Click to enlarge" src="http://ra9iyg.blu.livefilestore.com/y1pLqIxcVC0oUXVBKeG5xztI_viDDnje-yT6Y0srLROXLyCT_EIcMtYFi69R27i4FtEZaCfI5r63lNe8WRuS7wp3Q/288_3.jpg" alt="image" width="482" height="81" /></a><p class="wp-caption-text">图3.</p></div>
<p>从图2跟图3的对比，后者不会产生重复内容，而且在文章首行也不会多出“#e#”这个来。<br />
举出这两个例子也是为说明此处选择的重要性。</p>
<p>2、分页链接区域匹配规则<br />
这部分的选择也是有一定的技巧。假如有些文章有单页形式，也有多页形式，这时我们应打开有多页的文章 ，然后查看其源文件。<br />
例如本文例子，我们首先要找到其分页区域HTML代码，见下图4选中部分：</p>
<div class="wp-caption alignnone" style="width: 510px"><a class="highslide-image" onclick="return hs.expand(this);" href="http://ra9iyg.blu.livefilestore.com/y1p1QAqIPllYtY8K75r5f40CEZgrh-SMx2IN_NP_d7FjHkbwz46Hy2HyVXsZAQtXzdsfJgKO2Vlluy163JtQzoF2w/289_4.jpg"><img title="Click to enlarge" src="http://ra9iyg.blu.livefilestore.com/y1p1QAqIPllYtY8K75r5f40CEZgrh-SMx2IN_NP_d7FjHkbwz46Hy2HyVXsZAQtXzdsfJgKO2Vlluy163JtQzoF2w/289_4.jpg" alt="image" width="500" height="54" /></a><p class="wp-caption-text">图4.</p></div>
<p>接下来是选出具有唯一标识的代码作为分页链接区域的起始HTML，这点类似于其他部分的采集。本文例子的配置如下图5：</p>
<div class="wp-caption alignnone" style="width: 488px"><a class="highslide-image" onclick="return hs.expand(this);" href="http://ra9iyg.blu.livefilestore.com/y1putBZI6Mroz1sI5C3piCiIVRYT_0k9jNBcGqyBSZSg7qxctvKIedfB_t7l1TytZDj45Joyviq8LEnQQsN__-OmA/290_5.jpg"><img title="Click to enlarge" src="http://ra9iyg.blu.livefilestore.com/y1putBZI6Mroz1sI5C3piCiIVRYT_0k9jNBcGqyBSZSg7qxctvKIedfB_t7l1TytZDj45Joyviq8LEnQQsN__-OmA/290_5.jpg" alt="image" width="478" height="54" /></a><p class="wp-caption-text">图5.</p></div>
<p>3、规则写好以后，在“采集节点管理”页面中的“测试”按钮可以测试采集规则能否采集到内容。但对于分页采集，该功能并不能测试出分页采集规则写得对不对。所以最好的方式是把采集规则的来源网址中分页变量起始值改为1页，然后实际采集，再看看采集回来的内容是否正确，若有错误就修改分页采集部分，再清空节点采集到的内容，再采集，如此反复直至完美为止。</p>
<p>至此，采集教程也就告一段落了，也许以后有时间johnny会再整理出采集模型的相关教程。若有什么问题，欢迎到本站给我留言一起研究学习或者到dede官方论坛去交流，那里的高手很多。</p>
<h3  class="related_post_title">路过这的也许还看过这些：</h3><ul class="related_post"><li><a href="http://www.bokelife.com/post-698-698/" title="【DEDECMS采集基础教程】过滤规则篇（四）">【DEDECMS采集基础教程】过滤规则篇（四）</a></li><li><a href="http://www.bokelife.com/post-696-696/" title="【DEDECMS采集基础教程】进行采集篇（三）">【DEDECMS采集基础教程】进行采集篇（三）</a></li><li><a href="http://www.bokelife.com/post-695-695/" title="【DEDECMS采集基础教程】采集规则篇（二）">【DEDECMS采集基础教程】采集规则篇（二）</a></li><li><a href="http://www.bokelife.com/post-694-694/" title="【DEDECMS采集基础教程】列表设置篇（一）">【DEDECMS采集基础教程】列表设置篇（一）</a></li><li><a href="http://www.bokelife.com/dedecms-5-5-can-not-collect-1207/" title="解决DEDECMS5.5在国外Linux主机下无法采集">解决DEDECMS5.5在国外Linux主机下无法采集</a></li><li><a href="http://www.bokelife.com/first-dede-theme-832/" title="第一个dede主题">第一个dede主题</a></li><li><a href="http://www.bokelife.com/copy-like-this-727/" title="如此抄袭？">如此抄袭？</a></li><li><a href="http://www.bokelife.com/reset-dedecms-admin-password-1205/" title="找回dedecms的管理员密码">找回dedecms的管理员密码</a></li><li><a href="http://www.bokelife.com/chimp-tutorial-index-924/" title="chi.mp系列教程引导">chi.mp系列教程引导</a></li><li><a href="http://www.bokelife.com/chimp-step-by-step-five-923/" title="chi.mp使用教程(五)">chi.mp使用教程(五)</a></li></ul><hr />
<p><small>&copy; Johnny for <a href="http://www.bokelife.com">寂寞部屋</a>, 2008. |
<a href="http://www.bokelife.com/post-699-699/">Permalink</a> |
<a href="http://www.bokelife.com/post-699-699/#comments">No comment</a> |
Add to
<a href="http://del.icio.us/post?url=http://www.bokelife.com/post-699-699/&amp;title=【DEDECMS采集基础教程】分页采集篇（五）">del.icio.us</a>
<br/>
Post tags: <a href="http://www.bokelife.com/Tag/cms/" rel="tag">cms</a>, <a href="http://www.bokelife.com/Tag/dede/" rel="tag">dede</a>, <a href="http://www.bokelife.com/Tag/%E6%95%99%E7%A8%8B/" rel="tag">教程</a>, <a href="http://www.bokelife.com/Tag/%E9%87%87%E9%9B%86/" rel="tag">采集</a><br/>
</small></p>
<p><small>Feed enhanced by <a href='http://planetozh.com/blog/my-projects/wordpress-plugin-better-feed-rss/'>Better Feed</a> from  <a href='http://planetozh.com/blog/'>Ozh</a></small></p>
]]></content:encoded>
			<wfw:commentRss>http://www.bokelife.com/post-699-699/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>【DEDECMS采集基础教程】过滤规则篇（四）</title>
		<link>http://www.bokelife.com/post-698-698/</link>
		<comments>http://www.bokelife.com/post-698-698/#comments</comments>
		<pubDate>Mon, 14 Jul 2008 14:24:25 +0000</pubDate>
		<dc:creator>Johnny</dc:creator>
				<category><![CDATA[网站建设]]></category>
		<category><![CDATA[cms]]></category>
		<category><![CDATA[dede]]></category>
		<category><![CDATA[教程]]></category>
		<category><![CDATA[采集]]></category>

		<guid isPermaLink="false">http://www.bokelife.com/?p=</guid>
		<description><![CDATA[&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;- 
注：写此文的目的是将自己对dede的采集经验总结下，适合新手使用 
有什么不明白的地方可以PM我或在下面留言，我有时间会帮你解答。 
对DEDE我也是新手，还有很多不明白的欢迎一起交流学习。 
本教程我会分成几章写完，由于时间的关系先些第一部分 
转载请注明Johnny原创：http://www.bokelife.com/show-418-1.html
【DEDECMS采集基础教程】列表设置篇（一）
【DEDECMS采集基础教程】采集规则篇（二）
【DEDECMS采集基础教程】进行采集篇（三）
【DEDECMS采集基础教程】过滤规则篇（四）
【DEDECMS采集基础教程】分页采集篇（五）
&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;-
经过前面三篇的介绍，对于dede的采集我们也有基本的了解和操作能力，对于采集简单的内容来说也足够用了。然而对于大多数网站来说，现在广告是网站收入的一个重要来源，因此在网页中常会嵌入广告代码。我们在采集的时候，如何将其过滤掉，从而避免了自己帮别人免费挂广告呢？又例如某些文章里面某些关键词有了他们自己网站上的其他文章链接，你是否愿意让你辛苦采集回来的文章里包含了他的链接？这一切，只需简单的过滤规则，即可给你一篇干净的文章。
dede的过滤规则并不难写，其写法如下面
{dede:trim}这里就是要过滤的内容{/dede:trim}
如果你要过滤的内容比较简单的代码，完全可以直接在&#8220;{dede:trim}&#8221;和&#8220;{/dede:trim}&#8221;之间写上，如果比较复杂的就要用到正则了。
1、例如采集中去除内容里的超链接的规则如下：
{dede:trim}&#60;a([^&#62;]*)&#62;{/dede:trim}
{dede:trim}&#60;/a&#62;{/dede:trim}
假如要将所有超链接内容都去除，规则是：{dede:trim}&#60;a([^&#62;]*)&#62;([^&#60;]*)&#60;/a&#62;{/dede:trim}
这两个规则的不同通过下面代码来解释
例如文章代码中包含着如下内容：&#60;a href=&#34;#&#34;&#62;超链接&#60;/a&#62;
通过第一个规则，我们采集来的结果是：超链接
通过第二个规则，我们采集来的结果是：空白，即是将所有内容都过滤掉了。
2、过滤广告
对于广告来说，过滤规则就得针对html中看到的内容使用规则了，例如某些广告仅仅是引用某个JS文件，例如
&#60;script src=&#8217;/plus/ad_js.php?aid=4&#8242; language=&#8217;javascript&#8217;&#62;&#60;/script&#62;
这样的规则只需
{dede:trim}&#60;script(.*)&#62;{/dede:trim}
{dede:trim}&#60;/script&#62;{/dede:trim}
如果某些广告的内容是JS代码写在&#60;script&#62;&#60;/script&#62;区间里的，例如GG的广告，那么过滤规则应该是：
{dede:trim}&#60;script&#62;(.*)&#60;/script&#62;{/dede:trim}
3、下面是一些常识用的过滤规则
{dede:trim}&#60;!&#8211;(.*)&#8211;&#62;{/dede:trim}
{dede:trim}&#60;select([^&#62;]*)&#62;([^&#62;]*)&#60;/select&#62;{/dede:trim}
{dede:trim}&#60;option([^&#62;]*)&#62;([^&#62;]*)&#60;/option&#62;{/dede:trim}
{dede:trim}&#60;select([^&#62;]*)&#62;{/dede:trim}
{dede:trim}&#60;/select&#62;{/dede:trim}
{dede:trim}&#60;param([^&#62;]*)&#62;{/dede:trim}
{dede:trim}&#60;embed([^&#62;]*)&#62;([^&#62;]*)&#60;/embed&#62;{/dede:trim}
{dede:trim}&#60;embed([^&#62;]*)&#62;{/dede:trim}
{dede:trim}&#60;/embed&#62;{/dede:trim}
{dede:trim}&#60;object([^&#62;]*)&#62;([^&#62;]*)&#60;/object&#62;{/dede:trim}
{dede:trim}&#60;object([^&#62;]*)&#62;{/dede:trim}
{dede:trim}&#60;/object&#62;{/dede:trim}
{dede:trim}&#60;OBJECT([^&#62;]*)&#62;([^&#62;]*)&#60;/OBJECT&#62;{/dede:trim}
{dede:trim}&#60;OBJECT([^&#62;]*)&#62;{/dede:trim}
{dede:trim}&#60;/OBJECT&#62;{/dede:trim}
{dede:trim}&#60;iframe([^&#62;]*)&#62;([^&#62;]*)&#60;/iframe&#62;{/dede:trim}
{dede:trim}&#60;iframe([^&#62;]*)&#62;{/dede:trim}
{dede:trim}&#60;/iframe&#62;{/dede:trim}
{dede:trim}&#60;IFRAME([^&#62;]*)&#62;([^&#62;]*)&#60;/IFRAME&#62;{/dede:trim}
{dede:trim}&#60;IFRAME([^&#62;]*)&#62;{/dede:trim}
{dede:trim}&#60;/IFRAME&#62;{/dede:trim}
{dede:trim}&#60;font([^&#62;]*)&#62;([^&#60;]*)&#60;/font&#62;{/dede:trim}
{dede:trim}&#60;font([^&#62;]*)&#62;{/dede:trim}
{dede:trim}&#60;/font&#62;{/dede:trim}
{dede:trim}&#60;a([^&#62;]*)&#62;([^&#60;]*)&#60;/a&#62;{/dede:trim}
{dede:trim}&#60;a([^&#62;]*)&#62;{/dede:trim}
{dede:trim}&#60;/a&#62;{/dede:trim}
{dede:trim}&#60;td([^&#62;]*)&#62;([^&#62;]*)&#60;/td&#62;{/dede:trim}
{dede:trim}&#60;td([^&#62;]*)&#62;{/dede:trim}
{dede:trim}&#60;/td&#62;{/dede:trim}
{dede:trim}&#60;tr([^&#62;]*)&#62;([^&#62;]*)&#60;/tr&#62;{/dede:trim}
{dede:trim}&#60;tr([^&#62;]*)&#62;{/dede:trim}
{dede:trim}&#60;/tr&#62;{/dede:trim}
{dede:trim}&#60;tbody([^&#62;]*)&#62;([^&#62;]*)&#60;/tbody&#62;{/dede:trim}
{dede:trim}&#60;tbody&#62;{/dede:trim}
{dede:trim}&#60;/tbody&#62;{/dede:trim}
{dede:trim}&#60;table([^&#62;]*)&#62;([^&#62;]*)&#60;/table&#62;{/dede:trim}
{dede:trim}&#60;table([^&#62;]*)&#62;{/dede:trim}
{dede:trim}&#60;/table&#62;{/dede:trim}
{dede:trim}&#60;span([^&#62;]*)&#62;{/dede:trim}
{dede:trim}&#60;/span&#62;{/dede:trim}
{dede:trim}&#60;/IFRAME&#62;{/dede:trim}
{dede:trim}&#60;script&#62;(.*)&#60;/script&#62;{/dede:trim}
{dede:trim}&#60;script(.*)&#62;{/dede:trim}
{dede:trim}&#60;/script&#62;{/dede:trim}

&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8211;
对于下面这些规则就请慎用
&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8211;
{dede:trim}&#60;div(.*)&#62;{/dede:trim}
{dede:trim}&#60;/div&#62;{/dede:trim}
{dede:trim}&#60;stong&#62;{/dede:trim}
{dede:trim}&#60;/stong&#62;{/dede:trim}
{dede:trim}&#60;div(.*)&#62;(.*)&#60;/div&#62;{/dede:trim}
{dede:trim}&#60;center(.*)&#62;{/dede:trim}
{dede:trim}&#60;/center&#62;{/dede:trim}
{dede:trim}&#60;p(.*)&#62;{/dede:trim}
{dede:trim}&#60;/p&#62;{/dede:trim}
{dede:trim}&#60;span(.*)&#62;{dede:trim}
{dede:trim}&#60;/span&#62;{dede:trim}
{dede:trim}&#60;img(.*)&#62;{/dede:trim}
{dede:trim}&#60;div(.*)&#62;{/dede:trim}
{dede:trim}&#60;/div&#62;{/dede:trim}
以上就是本篇要介绍的内容，正则也许并不是每处都用得上，但当你了解其写法后，自己也可以写出一些更加适合自己使用的规则出来。
路过这的也许还看过这些：【DEDECMS采集基础教程】分页采集篇（五）【DEDECMS采集基础教程】进行采集篇（三）【DEDECMS采集基础教程】采集规则篇（二）【DEDECMS采集基础教程】列表设置篇（一）解决DEDECMS5.5在国外Linux主机下无法采集第一个dede主题如此抄袭？找回dedecms的管理员密码chi.mp系列教程引导chi.mp使用教程(五)
&#169; Johnny for 寂寞部屋, 2008. &#124;
Permalink &#124;
No comment &#124;
Add to
del.icio.us

Post tags: cms, dede, 教程, 采集

Feed enhanced by Better Feed from  Ozh
]]></description>
			<content:encoded><![CDATA[<p>&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;- <br />
注：写此文的目的是将自己对dede的采集经验总结下，适合新手使用 <br />
有什么不明白的地方可以PM我或在下面留言，我有时间会帮你解答。 <br />
对DEDE我也是新手，还有很多不明白的欢迎一起交流学习。 <br />
本教程我会分成几章写完，由于时间的关系先些第一部分 <br />
转载请注明Johnny原创：<a href="http://www.bokelife.com/show-418-1.html">http://www.bokelife.com/show-418-1.html</a></p>
<p><a href="http://www.bokelife.com/show-414-1.html">【DEDECMS采集基础教程】列表设置篇（一）</a></p>
<p><a href="http://www.bokelife.com/show-415-1.html">【DEDECMS采集基础教程】采集规则篇（二）</a></p>
<p><a href="http://www.bokelife.com/show-416-1.html">【DEDECMS采集基础教程】进行采集篇（三）</a></p>
<p><a href="http://www.bokelife.com/show-418-1.html">【DEDECMS采集基础教程】过滤规则篇（四）</a></p>
<p><a href="http://www.bokelife.com/show-419-1.html">【DEDECMS采集基础教程】分页采集篇（五）</a><br />
&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;-</p>
<p>经过前面三篇的介绍，对于dede的采集我们也有基本的了解和操作能力，对于采集简单的内容来说也足够用了。然而对于大多数网站来说，现在广告是网站收入的一个重要来源，因此在网页中常会嵌入广告代码。我们在采集的时候，如何将其过滤掉，从而避免了自己帮别人免费挂广告呢？又例如某些文章里面某些关键词有了他们自己网站上的其他文章链接，你是否愿意让你辛苦采集回来的文章里包含了他的链接？这一切，只需简单的过滤规则，即可给你一篇干净的文章。</p>
<p>dede的过滤规则并不难写，其写法如下面<br />
{dede:trim}这里就是要过滤的内容{/dede:trim}<br />
如果你要过滤的内容比较简单的代码，完全可以直接在&ldquo;{dede:trim}&rdquo;和&ldquo;{/dede:trim}&rdquo;之间写上，如果比较复杂的就要用到正则了。</p>
<p>1、例如采集中去除内容里的超链接的规则如下：<br />
{dede:trim}&lt;a([^&gt;]*)&gt;{/dede:trim}<br />
{dede:trim}&lt;/a&gt;{/dede:trim}<br />
假如要将所有超链接内容都去除，规则是：{dede:trim}&lt;a([^&gt;]*)&gt;([^&lt;]*)&lt;/a&gt;{/dede:trim}<br />
这两个规则的不同通过下面代码来解释<br />
例如文章代码中包含着如下内容：&lt;a href=&quot;#&quot;&gt;超链接&lt;/a&gt;<br />
通过第一个规则，我们采集来的结果是：超链接<br />
通过第二个规则，我们采集来的结果是：空白，即是将所有内容都过滤掉了。</p>
<p>2、过滤广告<br />
对于广告来说，过滤规则就得针对html中看到的内容使用规则了，例如某些广告仅仅是引用某个JS文件，例如<br />
&lt;script src=&#8217;/plus/ad_js.php?aid=4&#8242; language=&#8217;javascript&#8217;&gt;&lt;/script&gt;<br />
这样的规则只需<br />
{dede:trim}&lt;script(.*)&gt;{/dede:trim}<br />
{dede:trim}&lt;/script&gt;{/dede:trim}<br />
如果某些广告的内容是JS代码写在&lt;script&gt;&lt;/script&gt;区间里的，例如GG的广告，那么过滤规则应该是：<br />
{dede:trim}&lt;script&gt;(.*)&lt;/script&gt;{/dede:trim}</p>
<p>3、下面是一些常识用的过滤规则</p>
<p>{dede:trim}&lt;!&#8211;(.*)&#8211;&gt;{/dede:trim}<br />
{dede:trim}&lt;select([^&gt;]*)&gt;([^&gt;]*)&lt;/select&gt;{/dede:trim}<br />
{dede:trim}&lt;option([^&gt;]*)&gt;([^&gt;]*)&lt;/option&gt;{/dede:trim}<br />
{dede:trim}&lt;select([^&gt;]*)&gt;{/dede:trim}<br />
{dede:trim}&lt;/select&gt;{/dede:trim}<br />
{dede:trim}&lt;param([^&gt;]*)&gt;{/dede:trim}<br />
{dede:trim}&lt;embed([^&gt;]*)&gt;([^&gt;]*)&lt;/embed&gt;{/dede:trim}<br />
{dede:trim}&lt;embed([^&gt;]*)&gt;{/dede:trim}<br />
{dede:trim}&lt;/embed&gt;{/dede:trim}<br />
{dede:trim}&lt;object([^&gt;]*)&gt;([^&gt;]*)&lt;/object&gt;{/dede:trim}<br />
{dede:trim}&lt;object([^&gt;]*)&gt;{/dede:trim}<br />
{dede:trim}&lt;/object&gt;{/dede:trim}<br />
{dede:trim}&lt;OBJECT([^&gt;]*)&gt;([^&gt;]*)&lt;/OBJECT&gt;{/dede:trim}<br />
{dede:trim}&lt;OBJECT([^&gt;]*)&gt;{/dede:trim}<br />
{dede:trim}&lt;/OBJECT&gt;{/dede:trim}<br />
{dede:trim}&lt;iframe([^&gt;]*)&gt;([^&gt;]*)&lt;/iframe&gt;{/dede:trim}<br />
{dede:trim}&lt;iframe([^&gt;]*)&gt;{/dede:trim}<br />
{dede:trim}&lt;/iframe&gt;{/dede:trim}<br />
{dede:trim}&lt;IFRAME([^&gt;]*)&gt;([^&gt;]*)&lt;/IFRAME&gt;{/dede:trim}<br />
{dede:trim}&lt;IFRAME([^&gt;]*)&gt;{/dede:trim}<br />
{dede:trim}&lt;/IFRAME&gt;{/dede:trim}<br />
{dede:trim}&lt;font([^&gt;]*)&gt;([^&lt;]*)&lt;/font&gt;{/dede:trim}<br />
{dede:trim}&lt;font([^&gt;]*)&gt;{/dede:trim}<br />
{dede:trim}&lt;/font&gt;{/dede:trim}<br />
{dede:trim}&lt;a([^&gt;]*)&gt;([^&lt;]*)&lt;/a&gt;{/dede:trim}<br />
{dede:trim}&lt;a([^&gt;]*)&gt;{/dede:trim}<br />
{dede:trim}&lt;/a&gt;{/dede:trim}<br />
{dede:trim}&lt;td([^&gt;]*)&gt;([^&gt;]*)&lt;/td&gt;{/dede:trim}<br />
{dede:trim}&lt;td([^&gt;]*)&gt;{/dede:trim}<br />
{dede:trim}&lt;/td&gt;{/dede:trim}<br />
{dede:trim}&lt;tr([^&gt;]*)&gt;([^&gt;]*)&lt;/tr&gt;{/dede:trim}<br />
{dede:trim}&lt;tr([^&gt;]*)&gt;{/dede:trim}<br />
{dede:trim}&lt;/tr&gt;{/dede:trim}<br />
{dede:trim}&lt;tbody([^&gt;]*)&gt;([^&gt;]*)&lt;/tbody&gt;{/dede:trim}<br />
{dede:trim}&lt;tbody&gt;{/dede:trim}<br />
{dede:trim}&lt;/tbody&gt;{/dede:trim}<br />
{dede:trim}&lt;table([^&gt;]*)&gt;([^&gt;]*)&lt;/table&gt;{/dede:trim}<br />
{dede:trim}&lt;table([^&gt;]*)&gt;{/dede:trim}<br />
{dede:trim}&lt;/table&gt;{/dede:trim}<br />
{dede:trim}&lt;span([^&gt;]*)&gt;{/dede:trim}<br />
{dede:trim}&lt;/span&gt;{/dede:trim}<br />
{dede:trim}&lt;/IFRAME&gt;{/dede:trim}<br />
{dede:trim}&lt;script&gt;(.*)&lt;/script&gt;{/dede:trim}<br />
{dede:trim}&lt;script(.*)&gt;{/dede:trim}<br />
{dede:trim}&lt;/script&gt;{/dede:trim}</p>
<p>
&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8211;<br />
对于下面这些规则就请慎用<br />
&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8211;</p>
<p>{dede:trim}&lt;div(.*)&gt;{/dede:trim}<br />
{dede:trim}&lt;/div&gt;{/dede:trim}<br />
{dede:trim}&lt;stong&gt;{/dede:trim}<br />
{dede:trim}&lt;/stong&gt;{/dede:trim}<br />
{dede:trim}&lt;div(.*)&gt;(.*)&lt;/div&gt;{/dede:trim}<br />
{dede:trim}&lt;center(.*)&gt;{/dede:trim}<br />
{dede:trim}&lt;/center&gt;{/dede:trim}<br />
{dede:trim}&lt;p(.*)&gt;{/dede:trim}<br />
{dede:trim}&lt;/p&gt;{/dede:trim}<br />
{dede:trim}&lt;span(.*)&gt;{dede:trim}<br />
{dede:trim}&lt;/span&gt;{dede:trim}<br />
{dede:trim}&lt;img(.*)&gt;{/dede:trim}<br />
{dede:trim}&lt;div(.*)&gt;{/dede:trim}<br />
{dede:trim}&lt;/div&gt;{/dede:trim}</p>
<p>以上就是本篇要介绍的内容，正则也许并不是每处都用得上，但当你了解其写法后，自己也可以写出一些更加适合自己使用的规则出来。</p>
<h3  class="related_post_title">路过这的也许还看过这些：</h3><ul class="related_post"><li><a href="http://www.bokelife.com/post-699-699/" title="【DEDECMS采集基础教程】分页采集篇（五）">【DEDECMS采集基础教程】分页采集篇（五）</a></li><li><a href="http://www.bokelife.com/post-696-696/" title="【DEDECMS采集基础教程】进行采集篇（三）">【DEDECMS采集基础教程】进行采集篇（三）</a></li><li><a href="http://www.bokelife.com/post-695-695/" title="【DEDECMS采集基础教程】采集规则篇（二）">【DEDECMS采集基础教程】采集规则篇（二）</a></li><li><a href="http://www.bokelife.com/post-694-694/" title="【DEDECMS采集基础教程】列表设置篇（一）">【DEDECMS采集基础教程】列表设置篇（一）</a></li><li><a href="http://www.bokelife.com/dedecms-5-5-can-not-collect-1207/" title="解决DEDECMS5.5在国外Linux主机下无法采集">解决DEDECMS5.5在国外Linux主机下无法采集</a></li><li><a href="http://www.bokelife.com/first-dede-theme-832/" title="第一个dede主题">第一个dede主题</a></li><li><a href="http://www.bokelife.com/copy-like-this-727/" title="如此抄袭？">如此抄袭？</a></li><li><a href="http://www.bokelife.com/reset-dedecms-admin-password-1205/" title="找回dedecms的管理员密码">找回dedecms的管理员密码</a></li><li><a href="http://www.bokelife.com/chimp-tutorial-index-924/" title="chi.mp系列教程引导">chi.mp系列教程引导</a></li><li><a href="http://www.bokelife.com/chimp-step-by-step-five-923/" title="chi.mp使用教程(五)">chi.mp使用教程(五)</a></li></ul><hr />
<p><small>&copy; Johnny for <a href="http://www.bokelife.com">寂寞部屋</a>, 2008. |
<a href="http://www.bokelife.com/post-698-698/">Permalink</a> |
<a href="http://www.bokelife.com/post-698-698/#comments">No comment</a> |
Add to
<a href="http://del.icio.us/post?url=http://www.bokelife.com/post-698-698/&amp;title=【DEDECMS采集基础教程】过滤规则篇（四）">del.icio.us</a>
<br/>
Post tags: <a href="http://www.bokelife.com/Tag/cms/" rel="tag">cms</a>, <a href="http://www.bokelife.com/Tag/dede/" rel="tag">dede</a>, <a href="http://www.bokelife.com/Tag/%E6%95%99%E7%A8%8B/" rel="tag">教程</a>, <a href="http://www.bokelife.com/Tag/%E9%87%87%E9%9B%86/" rel="tag">采集</a><br/>
</small></p>
<p><small>Feed enhanced by <a href='http://planetozh.com/blog/my-projects/wordpress-plugin-better-feed-rss/'>Better Feed</a> from  <a href='http://planetozh.com/blog/'>Ozh</a></small></p>
]]></content:encoded>
			<wfw:commentRss>http://www.bokelife.com/post-698-698/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>【DEDECMS采集基础教程】进行采集篇（三）</title>
		<link>http://www.bokelife.com/post-696-696/</link>
		<comments>http://www.bokelife.com/post-696-696/#comments</comments>
		<pubDate>Sun, 13 Jul 2008 17:34:45 +0000</pubDate>
		<dc:creator>Johnny</dc:creator>
				<category><![CDATA[网站建设]]></category>
		<category><![CDATA[cms]]></category>
		<category><![CDATA[dede]]></category>
		<category><![CDATA[教程]]></category>
		<category><![CDATA[采集]]></category>

		<guid isPermaLink="false">http://www.bokelife.com/?p=696</guid>
		<description><![CDATA[&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;-
注：写此文的目的是将自己对dede的采集经验总结下，适合新手使用
有什么不明白的地方可以PM我或在下面留言，我有时间会帮你解答。
对DEDE我也是新手，还有很多不明白的欢迎一起交流学习。
本教程我会分成几章写完，由于时间的关系先些第一部分
转载请注明Johnny原创：http://www.bokelife.com/show-416-1.html
【DEDECMS采集基础教程】列表设置篇（一）
【DEDECMS采集基础教程】采集规则篇（二）
【DEDECMS采集基础教程】进行采集篇（三）
【DEDECMS采集基础教程】过滤规则篇（四）
【DEDECMS采集基础教程】分页采集篇（五）
&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;-
经过【DEDECMS采集基础教程】列表设置篇（一）和【DEDECMS采集基础教程】采集规则篇（二）的介绍，我们基本掌握了采集规则
的写发。这一篇我们将介绍如何进行采集以及采集后的入库。
一，选择节点，进入采集
先在我们刚建立好的采集节点前面打勾，然后点“采集”按钮，如图1
二，采集详细设置
这里可以设置每页采集的数据条数，一般来说不要设置太大，否则有可能导致系统处理不过来而部分采集不到，建议别超过15；线
程数是指每次有多少个线程同时进行采集，线程数的增加可以加快采集速度，但相应的会增加服务器资源的占用，所以请慎用；假
若目标站点有防刷新限制，此处就可以根据目标站点的防刷新限制时间进行设置，假如没有就默认0秒可以了。
附加选项这三个设置从字面上应该可以很容易理解，这就根据你的实际需要进行选择了。
三，采集后的处理
采集完成后，点击“查看种子网址”进入查看采集的结果。
这里罗列出了采集回来的内容。可以点击进去查看采集到的内容有无问题的。具体看图3
温馨提醒：
1、在这个列表中有些数据的是否下载有可能显示的是“未下载”，引起的原因可能是网络的原因引起也有可能是你设置的采集条数
过大导致的。出现这样的情况我们仅需要在上面采集的“附加选项中”选择“仅下载未下载内容”，然后再进行一次采集即可。
2、在“节点的种子网址”列表中点击“[源网址]”可进入查看该条采集到的数据所在的原来页面
3、在“节点的种子网址”列表中点击“内容标题”这一栏的超链接可进入查看采集到的数据是否正确，同时也可以修改里面的内容
，最后记得保存即可，见图4
这里需要注意的是：“dede_archives.sortrank”和“dede_archives.pubdate”这两个字段的内容一般不要修改
4、假如要删除部分不满意的数据，可以在列表中在你要删除的数据前面打勾，然后按“删除所选网址”即可，这里支持批量操作
四，将采集的数据入库
这里有多个入口：
1、在节点管理列表中选择刚才采集的那个节点，然后点击下面的“导出数据按钮”进入入库操作
2、直接点击我们刚才采集的那个节点进入采集内容管理页面，点击右上方的“导出采集内容”按钮即可进入入库操作
3、选择节点后点击“采集”按钮进入采集页面，在右上方有“导出数据”按钮，点击后也可进入入库操作页面
进入后的入库操作页面见图5
首先选择要导入到的栏目，按“请选择”那里即可在弹出的窗口中选择你需要导入的栏目
发布选项这里一般默认即可，除非你不想马上发布。
每批导入默认是30条，这里修改与否都无所谓，因为导入操作的速度还是蛮快的
附带选项一般选“排除重复标题”，至于自动生成HTML那个选项建议先别生成，因为我们还要去批量提取摘要和关键字，这就是后
话了。
上面的配置OK以后，接下来就是按“提交”让系统自己去处理了。完成下面会有提示信息。
到这里，采集教程就基本结束，接下来我会介绍一些过滤规则和分页采集教程。喜欢的朋友敬请关注。
由于本人比较忙，相关的教程仍在陆续制作中，我会在第一时间将其发布，谢谢大家都支持。
路过这的也许还看过这些：【DEDECMS采集基础教程】分页采集篇（五）【DEDECMS采集基础教程】过滤规则篇（四）【DEDECMS采集基础教程】采集规则篇（二）【DEDECMS采集基础教程】列表设置篇（一）解决DEDECMS5.5在国外Linux主机下无法采集第一个dede主题如此抄袭？找回dedecms的管理员密码chi.mp系列教程引导chi.mp使用教程(五)
&#169; Johnny for 寂寞部屋, 2008. &#124;
Permalink &#124;
2 comments &#124;
Add to
del.icio.us

Post tags: cms, dede, 教程, 采集

Feed enhanced by Better Feed from  Ozh
]]></description>
			<content:encoded><![CDATA[<p>&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;-</p>
<p>注：写此文的目的是将自己对dede的采集经验总结下，适合新手使用</p>
<p>有什么不明白的地方可以PM我或在下面留言，我有时间会帮你解答。</p>
<p>对DEDE我也是新手，还有很多不明白的欢迎一起交流学习。</p>
<p>本教程我会分成几章写完，由于时间的关系先些第一部分</p>
<p>转载请注明Johnny原创：<a href="http://www.bokelife.com/show-416-1.html">http://www.bokelife.com/show-416-1.html</a></p>
<p><a href="http://www.bokelife.com/show-414-1.html">【DEDECMS采集基础教程】列表设置篇（一）</a></p>
<p><a href="http://www.bokelife.com/show-415-1.html">【DEDECMS采集基础教程】采集规则篇（二）</a></p>
<p><a href="http://www.bokelife.com/show-416-1.html">【DEDECMS采集基础教程】进行采集篇（三）</a></p>
<p><a href="http://www.bokelife.com/show-418-1.html">【DEDECMS采集基础教程】过滤规则篇（四）</a></p>
<p><a href="http://www.bokelife.com/show-419-1.html">【DEDECMS采集基础教程】分页采集篇（五）</a></p>
<p>&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;-</p>
<p>经过<a href="http://www.bokelife.com/show-414-1.html" target="_blank">【DEDECMS采集基础教程】列表设置篇（一）</a>和<a href="http://www.bokelife.com/show-415-1.html" target="_blank">【DEDECMS采集基础教程】采集规则篇（二）</a>的介绍，我们基本掌握了采集规则</p>
<p>的写发。这一篇我们将介绍如何进行采集以及采集后的入库。</p>
<p>一，选择节点，进入采集</p>
<p>先在我们刚建立好的采集节点前面打勾，然后点“采集”按钮，如图1</p>
<div class="wp-caption alignnone" style="width: 512px"><a class="highslide-image" onclick="return hs.expand(this);" href="http://ra9iyg.blu.livefilestore.com/y1pNhWBNRfvrP-TuzI588JyEtAuVkiKwACt-rNU1RNLsP-iurPsaXMKchFlFeYH0DFigdZiuF8IdynMcqAPmIWgzA/278_1.jpg"><img title="Click to enlarge" src="http://ra9iyg.blu.livefilestore.com/y1pNhWBNRfvrP-TuzI588JyEtAuVkiKwACt-rNU1RNLsP-iurPsaXMKchFlFeYH0DFigdZiuF8IdynMcqAPmIWgzA/278_1.jpg" alt="image" width="502" height="45" /></a><p class="wp-caption-text">图1.</p></div>
<p>二，采集详细设置</p>
<div class="wp-caption alignnone" style="width: 483px"><a class="highslide-image" onclick="return hs.expand(this);" href="http://ra9iyg.blu.livefilestore.com/y1pT4Uj60PNlEs10YAXU2CtmvXazS7zdzw3wC8OJ5HdYGn6dlFH0NxWXmgeW7g98_f1cGz0bP1Voz41MMbfWH0dFA/279_2.jpg"><img title="Click to enlarge" src="http://ra9iyg.blu.livefilestore.com/y1pT4Uj60PNlEs10YAXU2CtmvXazS7zdzw3wC8OJ5HdYGn6dlFH0NxWXmgeW7g98_f1cGz0bP1Voz41MMbfWH0dFA/279_2.jpg" alt="image" width="473" height="125" /></a><p class="wp-caption-text">图2.</p></div>
<p>这里可以设置每页采集的数据条数，一般来说不要设置太大，否则有可能导致系统处理不过来而部分采集不到，建议别超过15；线</p>
<p>程数是指每次有多少个线程同时进行采集，线程数的增加可以加快采集速度，但相应的会增加服务器资源的占用，所以请慎用；假</p>
<p>若目标站点有防刷新限制，此处就可以根据目标站点的防刷新限制时间进行设置，假如没有就默认0秒可以了。</p>
<p>附加选项这三个设置从字面上应该可以很容易理解，这就根据你的实际需要进行选择了。<br />
三，采集后的处理</p>
<p>采集完成后，点击“查看种子网址”进入查看采集的结果。</p>
<p>这里罗列出了采集回来的内容。可以点击进去查看采集到的内容有无问题的。具体看图3</p>
<div class="wp-caption alignnone" style="width: 508px"><a class="highslide-image" onclick="return hs.expand(this);" href="http://ra9iyg.blu.livefilestore.com/y1pHqpDRIaGH6trJEIjpYppxYZKRZ58W5Bq296h8U-SjSewbg6WTSMldUwnLCY5nD1nyyNp85o08S4AVXDS-h9rDg/280_3.jpg"><img title="Click to enlarge" src="http://ra9iyg.blu.livefilestore.com/y1pHqpDRIaGH6trJEIjpYppxYZKRZ58W5Bq296h8U-SjSewbg6WTSMldUwnLCY5nD1nyyNp85o08S4AVXDS-h9rDg/280_3.jpg" alt="image" width="498" height="112" /></a><p class="wp-caption-text">图3.</p></div>
<p>温馨提醒：</p>
<p>1、在这个列表中有些数据的是否下载有可能显示的是“未下载”，引起的原因可能是网络的原因引起也有可能是你设置的采集条数</p>
<p>过大导致的。出现这样的情况我们仅需要在上面采集的“附加选项中”选择“仅下载未下载内容”，然后再进行一次采集即可。</p>
<p>2、在“节点的种子网址”列表中点击“[源网址]”可进入查看该条采集到的数据所在的原来页面</p>
<p>3、在“节点的种子网址”列表中点击“内容标题”这一栏的超链接可进入查看采集到的数据是否正确，同时也可以修改里面的内容</p>
<p>，最后记得保存即可，见图4</p>
<div class="wp-caption alignnone" style="width: 504px"><a class="highslide-image" onclick="return hs.expand(this);" href="http://ra9iyg.blu.livefilestore.com/y1pHqpDRIaGH6sJAYeTRBMgyLcocH17xCa6wYoa3_eD3EcF0tEs8CsSlnR-OC5ZP9Il9nUmXPRruUrN_grh2pUl2g/281_4.jpg"><img title="Click to enlarge" src="http://ra9iyg.blu.livefilestore.com/y1pHqpDRIaGH6sJAYeTRBMgyLcocH17xCa6wYoa3_eD3EcF0tEs8CsSlnR-OC5ZP9Il9nUmXPRruUrN_grh2pUl2g/281_4.jpg" alt="image" width="494" height="148" /></a><p class="wp-caption-text">图4.</p></div>
<p>这里需要注意的是：“dede_archives.sortrank”和“dede_archives.pubdate”这两个字段的内容一般不要修改</p>
<p>4、假如要删除部分不满意的数据，可以在列表中在你要删除的数据前面打勾，然后按“删除所选网址”即可，这里支持批量操作</p>
<p>四，将采集的数据入库</p>
<p>这里有多个入口：</p>
<p>1、在节点管理列表中选择刚才采集的那个节点，然后点击下面的“导出数据按钮”进入入库操作</p>
<p>2、直接点击我们刚才采集的那个节点进入采集内容管理页面，点击右上方的“导出采集内容”按钮即可进入入库操作</p>
<p>3、选择节点后点击“采集”按钮进入采集页面，在右上方有“导出数据”按钮，点击后也可进入入库操作页面</p>
<p>进入后的入库操作页面见图5</p>
<div class="wp-caption alignnone" style="width: 500px"><a class="highslide-image" onclick="return hs.expand(this);" href="http://ra9iyg.blu.livefilestore.com/y1pun0KH4Ks6sPTMYxk79rPfycC77wBH9AmNGPSHiYXbRfkY02DkU3kbHpxMaOGkx8aYL8fVLdUlIV9hpyqCyPRIg/282_5.jpg"><img title="Click to enlarge" src="http://ra9iyg.blu.livefilestore.com/y1pun0KH4Ks6sPTMYxk79rPfycC77wBH9AmNGPSHiYXbRfkY02DkU3kbHpxMaOGkx8aYL8fVLdUlIV9hpyqCyPRIg/282_5.jpg" alt="image" width="490" height="191" /></a><p class="wp-caption-text">图5.</p></div>
<p>首先选择要导入到的栏目，按“请选择”那里即可在弹出的窗口中选择你需要导入的栏目</p>
<p>发布选项这里一般默认即可，除非你不想马上发布。</p>
<p>每批导入默认是30条，这里修改与否都无所谓，因为导入操作的速度还是蛮快的</p>
<p>附带选项一般选“排除重复标题”，至于自动生成HTML那个选项建议先别生成，因为我们还要去批量提取摘要和关键字，这就是后</p>
<p>话了。</p>
<p>上面的配置OK以后，接下来就是按“提交”让系统自己去处理了。完成下面会有提示信息。</p>
<p>到这里，采集教程就基本结束，接下来我会介绍一些过滤规则和分页采集教程。喜欢的朋友敬请关注。</p>
<p>由于本人比较忙，相关的教程仍在陆续制作中，我会在第一时间将其发布，谢谢大家都支持。</p>
<h3  class="related_post_title">路过这的也许还看过这些：</h3><ul class="related_post"><li><a href="http://www.bokelife.com/post-699-699/" title="【DEDECMS采集基础教程】分页采集篇（五）">【DEDECMS采集基础教程】分页采集篇（五）</a></li><li><a href="http://www.bokelife.com/post-698-698/" title="【DEDECMS采集基础教程】过滤规则篇（四）">【DEDECMS采集基础教程】过滤规则篇（四）</a></li><li><a href="http://www.bokelife.com/post-695-695/" title="【DEDECMS采集基础教程】采集规则篇（二）">【DEDECMS采集基础教程】采集规则篇（二）</a></li><li><a href="http://www.bokelife.com/post-694-694/" title="【DEDECMS采集基础教程】列表设置篇（一）">【DEDECMS采集基础教程】列表设置篇（一）</a></li><li><a href="http://www.bokelife.com/dedecms-5-5-can-not-collect-1207/" title="解决DEDECMS5.5在国外Linux主机下无法采集">解决DEDECMS5.5在国外Linux主机下无法采集</a></li><li><a href="http://www.bokelife.com/first-dede-theme-832/" title="第一个dede主题">第一个dede主题</a></li><li><a href="http://www.bokelife.com/copy-like-this-727/" title="如此抄袭？">如此抄袭？</a></li><li><a href="http://www.bokelife.com/reset-dedecms-admin-password-1205/" title="找回dedecms的管理员密码">找回dedecms的管理员密码</a></li><li><a href="http://www.bokelife.com/chimp-tutorial-index-924/" title="chi.mp系列教程引导">chi.mp系列教程引导</a></li><li><a href="http://www.bokelife.com/chimp-step-by-step-five-923/" title="chi.mp使用教程(五)">chi.mp使用教程(五)</a></li></ul><hr />
<p><small>&copy; Johnny for <a href="http://www.bokelife.com">寂寞部屋</a>, 2008. |
<a href="http://www.bokelife.com/post-696-696/">Permalink</a> |
<a href="http://www.bokelife.com/post-696-696/#comments">2 comments</a> |
Add to
<a href="http://del.icio.us/post?url=http://www.bokelife.com/post-696-696/&amp;title=【DEDECMS采集基础教程】进行采集篇（三）">del.icio.us</a>
<br/>
Post tags: <a href="http://www.bokelife.com/Tag/cms/" rel="tag">cms</a>, <a href="http://www.bokelife.com/Tag/dede/" rel="tag">dede</a>, <a href="http://www.bokelife.com/Tag/%E6%95%99%E7%A8%8B/" rel="tag">教程</a>, <a href="http://www.bokelife.com/Tag/%E9%87%87%E9%9B%86/" rel="tag">采集</a><br/>
</small></p>
<p><small>Feed enhanced by <a href='http://planetozh.com/blog/my-projects/wordpress-plugin-better-feed-rss/'>Better Feed</a> from  <a href='http://planetozh.com/blog/'>Ozh</a></small></p>
]]></content:encoded>
			<wfw:commentRss>http://www.bokelife.com/post-696-696/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>【DEDECMS采集基础教程】采集规则篇（二）</title>
		<link>http://www.bokelife.com/post-695-695/</link>
		<comments>http://www.bokelife.com/post-695-695/#comments</comments>
		<pubDate>Fri, 11 Jul 2008 18:58:57 +0000</pubDate>
		<dc:creator>Johnny</dc:creator>
				<category><![CDATA[网站建设]]></category>
		<category><![CDATA[cms]]></category>
		<category><![CDATA[dede]]></category>
		<category><![CDATA[教程]]></category>
		<category><![CDATA[采集]]></category>

		<guid isPermaLink="false">http://www.bokelife.com/?p=695</guid>
		<description><![CDATA[&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;-
注：写此文的目的是将自己对dede的采集经验总结下，适合新手使用
有什么不明白的地方可以PM我或在下面留言，我有时间会帮你解答。
对DEDE我也是新手，还有很多不明白的欢迎一起交流学习。
本教程我会分成几章写完，由于时间的关系先些第一部分
转载请注明Johnny原创：http://www.bokelife.com/show-415-1.html
【DEDECMS采集基础教程】列表设置篇（一）
【DEDECMS采集基础教程】采集规则篇（二）
【DEDECMS采集基础教程】进行采集篇（三）
【DEDECMS采集基础教程】过滤规则篇（四）
【DEDECMS采集基础教程】分页采集篇（五）
&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;-
在上一篇“【DEDECMS采集基础教程】列表设置篇（一）”中介绍了列表设置的方法，接下来我们进入采集规则的设置，上篇的作用
是获取到我们要采集的文章的地址，本篇是介绍如何从文章内容页面采集到文章的内容，也是整个采集模型中最为核心的部分。
一，设置采集内容：
本篇将以《HTML语言剖析（六）清单标记》为例子，其链接地址是：
http://www.dedecms.com/web-art/htmlbase/HTML/20060703/30201.html
由于该测试文章没有分页，所以我们的配置选择的是“不分页”，因此，分页链接区域html也可以不用填写任何内容，如下图1所示：
有分页文章的设置方法将会在以后进行介绍。
二，内容字段的设置：
进入这一步，就开始对页面源码进行着重的分析了，采集无非是分析html页面的结构从而获取我们所需的内容。
所以这里就要求我们对HTML代码有一定的认识，最起码你也该看懂html代码的结构。
通过查看页面源文件，我们可以查看到页面的html代码。
1、文章标题：
最简单的方法是直接搜索这个标题在html代码中出现的位置，例如本篇例文的标题是：HTML语言剖析（六）清单标记，因此直接搜
索出来在html代码总总共出现有两处，第一处的代码是
&#60;title&#62;HTML语言剖析（六）清单标记 &#8211; 织梦内容管理系统&#60;/title&#62;
第二处出现的代码是：
&#60;!&#8211;资讯标题&#8211;&#62;
&#60;div class=&#8221;title&#8221;&#62;
&#60;h1&#62;HTML语言剖析（六）清单标记&#60;/h1&#62;
&#60;/div&#62;
&#60;!&#8211;相关信息&#8211;&#62;
由上面两处不难得出，第二处对于我们来捕获该文的标题比较方便，因为不用再去写规则过滤掉一些我们不需要的信息。经过再次
搜索全文HTML得出,&#60;h1&#62;和&#60;/h1&#62;在文中具有唯一性，因此可以作为获取标题的起止html代码，设置如下图2：
2、文章作者：
如果你不想用该文章上所显示的作者，也可以留空，dede会自动把文章的作者名给你添加上“佚名”
要采集这个文章作者也不难，经过分析后，可以看出文章作者在HTML代码中出现的位置，先看看下图3中选中部分代码
这样文章作者的采集范围我们就可以定下来，其设置如下图4所示：
*若文章作者中有包含超链接，其代码表现形式为“&#60;a href=&#8221;" ……&#62;文章作者&#60;/a&#62;”，我们也可以采取过滤规则将其过滤掉，其规
则如下：
{dede:trim}&#60;a([^&#62;]*)&#62;{/dede:trim}
{dede:trim}&#60;/a&#62;{/dede:trim}
设置方法可以见上图4中的过滤规则。
3、文章正文：
要找到文章正文在HTML代码中出现的位置，一个便捷的技巧就是先复制网页中正文的头几个字，然后在html代码中查找，就可以很
快定位出来，这也可以方便我们分析代码。
只要找出文章正文前的唯一性代码和文章结束时的唯一性代码，就可以抓出文章的正文。如下图5所示：
因为本文例文是没有分页内容，所以这里的“分页内容字段”不用选，若你想将文章正文中包含的多媒体资源（如图片、视频等）
下载到本地服务器，你可以勾上“下载字段里的多媒体资源”
过滤规则是比较重要的部分，通过正则规则可以将文章中的广告代码或垃圾代码、干扰代码过滤掉，不采集下来，若人家文章中有
挂了广告，我想你也不想免费给人家挂广告吧。
至于过滤规则部分将再以后讲解。
剩下的文章来源，发布时间和录入时间等，都和以上的设置大同小异的，采集与否都无所谓，就看你的需要了。
三，至此，节点和规则的设置都完成了，接下来就是采集，下载和导出（入库）了。
最后再强调一点的就是必须懂HTML代码，最起码得能看懂目标页面的html代码的大概组成，知道文章的内容是存放在哪些代码之间
。
下篇预告：进行采集篇，以图文的方式介绍如何进行采集，导出所采集到的数据入库
&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8211;
请尊重作者劳动
转载请注明Johnny原创：http://www.bokelife.com/show-415-1.html
&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8211;
路过这的也许还看过这些：【DEDECMS采集基础教程】分页采集篇（五）【DEDECMS采集基础教程】过滤规则篇（四）【DEDECMS采集基础教程】进行采集篇（三）【DEDECMS采集基础教程】列表设置篇（一）解决DEDECMS5.5在国外Linux主机下无法采集第一个dede主题如此抄袭？找回dedecms的管理员密码chi.mp系列教程引导chi.mp使用教程(五)
&#169; Johnny for 寂寞部屋, 2008. &#124;
Permalink &#124;
15 comments &#124;
Add to
del.icio.us

Post tags: cms, dede, 教程, 采集

Feed enhanced by Better Feed from  Ozh
]]></description>
			<content:encoded><![CDATA[<p>&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;-</p>
<p>注：写此文的目的是将自己对dede的采集经验总结下，适合新手使用</p>
<p>有什么不明白的地方可以PM我或在下面留言，我有时间会帮你解答。</p>
<p>对DEDE我也是新手，还有很多不明白的欢迎一起交流学习。</p>
<p>本教程我会分成几章写完，由于时间的关系先些第一部分</p>
<p>转载请注明Johnny原创：<a href="http://www.bokelife.com/show-415-1.html">http://www.bokelife.com/show-415-1.html</a></p>
<p><a href="http://www.bokelife.com/show-414-1.html">【DEDECMS采集基础教程】列表设置篇（一）</a></p>
<p><a href="http://www.bokelife.com/show-415-1.html">【DEDECMS采集基础教程】采集规则篇（二）</a></p>
<p><a href="http://www.bokelife.com/show-416-1.html">【DEDECMS采集基础教程】进行采集篇（三）</a></p>
<p><a href="http://www.bokelife.com/show-418-1.html">【DEDECMS采集基础教程】过滤规则篇（四）</a></p>
<p><a href="http://www.bokelife.com/show-419-1.html">【DEDECMS采集基础教程】分页采集篇（五）</a></p>
<p>&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;-</p>
<p>在上一篇“【DEDECMS采集基础教程】列表设置篇（一）”中介绍了列表设置的方法，接下来我们进入采集规则的设置，上篇的作用</p>
<p>是获取到我们要采集的文章的地址，本篇是介绍如何从文章内容页面采集到文章的内容，也是整个采集模型中最为核心的部分。</p>
<p>一，设置采集内容：</p>
<p>本篇将以《HTML语言剖析（六）清单标记》为例子，其链接地址是：</p>
<p><a href="http://www.dedecms.com/web-art/htmlbase/HTML/20060703/30201.html">http://www.dedecms.com/web-art/htmlbase/HTML/20060703/30201.html</a></p>
<p>由于该测试文章没有分页，所以我们的配置选择的是“不分页”，因此，分页链接区域html也可以不用填写任何内容，如下图1所示：</p>
<div class="wp-caption alignnone" style="width: 480px"><a class="highslide-image" onclick="return hs.expand(this);" href="http://ra9iyg.blu.livefilestore.com/y1prfpQGb_b2MkVW4EJqJ8F5E3-j-knon5qKL1Begyp2NtF1QagrP5ZtqnkyEn5CGqQE--kNJ8xNtsigUCEUep9fQ/273_1.jpg"><img title="Click to enlarge" src="http://ra9iyg.blu.livefilestore.com/y1prfpQGb_b2MkVW4EJqJ8F5E3-j-knon5qKL1Begyp2NtF1QagrP5ZtqnkyEn5CGqQE--kNJ8xNtsigUCEUep9fQ/273_1.jpg" alt="image" width="470" height="157" /></a><p class="wp-caption-text">图1.</p></div>
<p>有分页文章的设置方法将会在以后进行介绍。<br />
二，内容字段的设置：</p>
<p>进入这一步，就开始对页面源码进行着重的分析了，采集无非是分析html页面的结构从而获取我们所需的内容。</p>
<p>所以这里就要求我们对HTML代码有一定的认识，最起码你也该看懂html代码的结构。</p>
<p>通过查看页面源文件，我们可以查看到页面的html代码。</p>
<p>1、文章标题：</p>
<p>最简单的方法是直接搜索这个标题在html代码中出现的位置，例如本篇例文的标题是：HTML语言剖析（六）清单标记，因此直接搜</p>
<p>索出来在html代码总总共出现有两处，第一处的代码是</p>
<p>&lt;title&gt;HTML语言剖析（六）清单标记 &#8211; 织梦内容管理系统&lt;/title&gt;</p>
<p>第二处出现的代码是：</p>
<p>&lt;!&#8211;资讯标题&#8211;&gt;</p>
<p>&lt;div class=&#8221;title&#8221;&gt;</p>
<p>&lt;h1&gt;HTML语言剖析（六）清单标记&lt;/h1&gt;</p>
<p>&lt;/div&gt;</p>
<p>&lt;!&#8211;相关信息&#8211;&gt;</p>
<p>由上面两处不难得出，第二处对于我们来捕获该文的标题比较方便，因为不用再去写规则过滤掉一些我们不需要的信息。经过再次</p>
<p>搜索全文HTML得出,&lt;h1&gt;和&lt;/h1&gt;在文中具有唯一性，因此可以作为获取标题的起止html代码，设置如下图2：</p>
<div class="wp-caption alignnone" style="width: 489px"><a class="highslide-image" onclick="return hs.expand(this);" href="http://ra9iyg.blu.livefilestore.com/y1pMF3e-oMdlB918ZDQh0hwqhM8JUqGo-uyljukFpWPhx0pErxFq599dvGaqXNYd6bfrGFO0Amye1g1t7KrYg8mfA/274_2.jpg"><img title="Click to enlarge" src="http://ra9iyg.blu.livefilestore.com/y1pMF3e-oMdlB918ZDQh0hwqhM8JUqGo-uyljukFpWPhx0pErxFq599dvGaqXNYd6bfrGFO0Amye1g1t7KrYg8mfA/274_2.jpg" alt="image" width="479" height="129" /></a><p class="wp-caption-text">图2.</p></div>
<p>2、文章作者：</p>
<p>如果你不想用该文章上所显示的作者，也可以留空，dede会自动把文章的作者名给你添加上“佚名”</p>
<p>要采集这个文章作者也不难，经过分析后，可以看出文章作者在HTML代码中出现的位置，先看看下图3中选中部分代码</p>
<div class="wp-caption alignnone" style="width: 385px"><a class="highslide-image" onclick="return hs.expand(this);" href="http://ra9iyg.blu.livefilestore.com/y1pRNkx8mbjMLpzfhGAubRIaByBpUGVZ1CmjhCYo3ONuTVRZLv-JBoTjYmSdRJG8vvkbDTbFA2oBOqtS3Eo-g75Qg/275_3.jpg"><img title="Click to enlarge" src="http://ra9iyg.blu.livefilestore.com/y1pRNkx8mbjMLpzfhGAubRIaByBpUGVZ1CmjhCYo3ONuTVRZLv-JBoTjYmSdRJG8vvkbDTbFA2oBOqtS3Eo-g75Qg/275_3.jpg" alt="image" width="375" height="126" /></a><p class="wp-caption-text">图3.</p></div>
<p>这样文章作者的采集范围我们就可以定下来，其设置如下图4所示：</p>
<div class="wp-caption alignnone" style="width: 474px"><a class="highslide-image" onclick="return hs.expand(this);" href="http://ra9iyg.blu.livefilestore.com/y1p2QaMMM01AXcKPv8yEq7gOyki0g4v06v99A66xNd6GQ4Azl99albtaBPuTD5DC2AA_O_MbRJmpG_DMwKTPOinhg/276_4.jpg"><img title="Click to enlarge" src="http://ra9iyg.blu.livefilestore.com/y1p2QaMMM01AXcKPv8yEq7gOyki0g4v06v99A66xNd6GQ4Azl99albtaBPuTD5DC2AA_O_MbRJmpG_DMwKTPOinhg/276_4.jpg" alt="image" width="464" height="124" /></a><p class="wp-caption-text">图4.</p></div>
<p>*若文章作者中有包含超链接，其代码表现形式为“&lt;a href=&#8221;" ……&gt;文章作者&lt;/a&gt;”，我们也可以采取过滤规则将其过滤掉，其规</p>
<p>则如下：</p>
<p>{dede:trim}&lt;a([^&gt;]*)&gt;{/dede:trim}</p>
<p>{dede:trim}&lt;/a&gt;{/dede:trim}</p>
<p>设置方法可以见上图4中的过滤规则。</p>
<p>3、文章正文：</p>
<p>要找到文章正文在HTML代码中出现的位置，一个便捷的技巧就是先复制网页中正文的头几个字，然后在html代码中查找，就可以很</p>
<p>快定位出来，这也可以方便我们分析代码。</p>
<p>只要找出文章正文前的唯一性代码和文章结束时的唯一性代码，就可以抓出文章的正文。如下图5所示：</p>
<div class="wp-caption alignnone" style="width: 476px"><a class="highslide-image" onclick="return hs.expand(this);" href="http://ra9iyg.blu.livefilestore.com/y1p2QaMMM01AXcTPwBNJmt-T1QyWDR0R-G1luw8lDNrFwU8vAh0BpIF5x-19lIgZySBrARqyYZcRGFOqe0I8CGF8A/277_5.jpg"><img title="Click to enlarge" src="http://ra9iyg.blu.livefilestore.com/y1p2QaMMM01AXcTPwBNJmt-T1QyWDR0R-G1luw8lDNrFwU8vAh0BpIF5x-19lIgZySBrARqyYZcRGFOqe0I8CGF8A/277_5.jpg" alt="image" width="466" height="128" /></a><p class="wp-caption-text">图5.</p></div>
<p>因为本文例文是没有分页内容，所以这里的“分页内容字段”不用选，若你想将文章正文中包含的多媒体资源（如图片、视频等）</p>
<p>下载到本地服务器，你可以勾上“下载字段里的多媒体资源”</p>
<p>过滤规则是比较重要的部分，通过正则规则可以将文章中的广告代码或垃圾代码、干扰代码过滤掉，不采集下来，若人家文章中有</p>
<p>挂了广告，我想你也不想免费给人家挂广告吧。</p>
<p>至于过滤规则部分将再以后讲解。<br />
剩下的文章来源，发布时间和录入时间等，都和以上的设置大同小异的，采集与否都无所谓，就看你的需要了。<br />
三，至此，节点和规则的设置都完成了，接下来就是采集，下载和导出（入库）了。</p>
<p>最后再强调一点的就是必须懂HTML代码，最起码得能看懂目标页面的html代码的大概组成，知道文章的内容是存放在哪些代码之间</p>
<p>。</p>
<p>下篇预告：进行采集篇，以图文的方式介绍如何进行采集，导出所采集到的数据入库</p>
<p>&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8211;</p>
<p>请尊重作者劳动</p>
<p>转载请注明Johnny原创：<a href="http://www.bokelife.com/show-415-1.html">http://www.bokelife.com/show-415-1.html</a></p>
<p>&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8211;</p>
<h3  class="related_post_title">路过这的也许还看过这些：</h3><ul class="related_post"><li><a href="http://www.bokelife.com/post-699-699/" title="【DEDECMS采集基础教程】分页采集篇（五）">【DEDECMS采集基础教程】分页采集篇（五）</a></li><li><a href="http://www.bokelife.com/post-698-698/" title="【DEDECMS采集基础教程】过滤规则篇（四）">【DEDECMS采集基础教程】过滤规则篇（四）</a></li><li><a href="http://www.bokelife.com/post-696-696/" title="【DEDECMS采集基础教程】进行采集篇（三）">【DEDECMS采集基础教程】进行采集篇（三）</a></li><li><a href="http://www.bokelife.com/post-694-694/" title="【DEDECMS采集基础教程】列表设置篇（一）">【DEDECMS采集基础教程】列表设置篇（一）</a></li><li><a href="http://www.bokelife.com/dedecms-5-5-can-not-collect-1207/" title="解决DEDECMS5.5在国外Linux主机下无法采集">解决DEDECMS5.5在国外Linux主机下无法采集</a></li><li><a href="http://www.bokelife.com/first-dede-theme-832/" title="第一个dede主题">第一个dede主题</a></li><li><a href="http://www.bokelife.com/copy-like-this-727/" title="如此抄袭？">如此抄袭？</a></li><li><a href="http://www.bokelife.com/reset-dedecms-admin-password-1205/" title="找回dedecms的管理员密码">找回dedecms的管理员密码</a></li><li><a href="http://www.bokelife.com/chimp-tutorial-index-924/" title="chi.mp系列教程引导">chi.mp系列教程引导</a></li><li><a href="http://www.bokelife.com/chimp-step-by-step-five-923/" title="chi.mp使用教程(五)">chi.mp使用教程(五)</a></li></ul><hr />
<p><small>&copy; Johnny for <a href="http://www.bokelife.com">寂寞部屋</a>, 2008. |
<a href="http://www.bokelife.com/post-695-695/">Permalink</a> |
<a href="http://www.bokelife.com/post-695-695/#comments">15 comments</a> |
Add to
<a href="http://del.icio.us/post?url=http://www.bokelife.com/post-695-695/&amp;title=【DEDECMS采集基础教程】采集规则篇（二）">del.icio.us</a>
<br/>
Post tags: <a href="http://www.bokelife.com/Tag/cms/" rel="tag">cms</a>, <a href="http://www.bokelife.com/Tag/dede/" rel="tag">dede</a>, <a href="http://www.bokelife.com/Tag/%E6%95%99%E7%A8%8B/" rel="tag">教程</a>, <a href="http://www.bokelife.com/Tag/%E9%87%87%E9%9B%86/" rel="tag">采集</a><br/>
</small></p>
<p><small>Feed enhanced by <a href='http://planetozh.com/blog/my-projects/wordpress-plugin-better-feed-rss/'>Better Feed</a> from  <a href='http://planetozh.com/blog/'>Ozh</a></small></p>
]]></content:encoded>
			<wfw:commentRss>http://www.bokelife.com/post-695-695/feed/</wfw:commentRss>
		<slash:comments>15</slash:comments>
		</item>
		<item>
		<title>【DEDECMS采集基础教程】列表设置篇（一）</title>
		<link>http://www.bokelife.com/post-694-694/</link>
		<comments>http://www.bokelife.com/post-694-694/#comments</comments>
		<pubDate>Thu, 10 Jul 2008 16:22:19 +0000</pubDate>
		<dc:creator>Johnny</dc:creator>
				<category><![CDATA[网站建设]]></category>
		<category><![CDATA[cms]]></category>
		<category><![CDATA[dede]]></category>
		<category><![CDATA[教程]]></category>
		<category><![CDATA[采集]]></category>

		<guid isPermaLink="false">http://www.bokelife.com/?p=694</guid>
		<description><![CDATA[&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;-
注：写此文的目的是将自己对dede的采集经验总结下，适合新手使用
有什么不明白的地方可以PM我或在下面留言，我有时间会帮你解答。
对DEDE我也是新手，还有很多不明白的欢迎一起交流学习。
本教程我会分成几章写完，由于时间的关系先些第一部分
转载请注明Johnny原创：http://www.bokelife.com/show-414-1.html
【DEDECMS采集基础教程】列表设置篇（一）
【DEDECMS采集基础教程】采集规则篇（二）
【DEDECMS采集基础教程】进行采集篇（三）
【DEDECMS采集基础教程】过滤规则篇（四）
【DEDECMS采集基础教程】分页采集篇（五）
&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;-
以dede的站长学院&#62;网页制作基础&#62;HTML/XHTML教程为例，地址是
http://www.dedecms.com/web-art/htmlbase/HTML/
一，打开dedecms，进入【采集节点管理】，新建一个节点，模型我们就选择
1、名称的话自己定义一个，主要是标识作用。
2、来源就自己定义个也可以，写上采集对象的信息也可以。
3、防盗链就看目标站点的有无刷新限制，有的话就设置一下超时时间，这个的话比较难判断，具体可以测试一下就知道。
4、页面编码就比较重要，可以在页面点击右键来看该页面的编码。
三，设置采集列表：
先看看要采集的信息列表：
来源网址很重要的。列表的获取就是从这里获取的。
自己打开：http://www.dedecms.com/web-art/htmlbase/HTML/
点击分页看下几个分页之间的URL有什么规则
由此不难看出其中的规则可以看下面的url例子：
http://www.dedecms.com/web-art/htmlbase/HTML/list_33_【除此外其他都一样】.html
由此我们提取出来的规则就是换为变量值的形式
http://www.dedecms.com/web-art/htmlbase/HTML/list_33_[var:分页].html
而变量起始值是1，结束值是3，就代表1至3的列表页了。
用正则匹配置网址就看本身是否有比较特定的文章网址字符。
下面的html范围就比较重要，采集的实际文章地址就是从这里获取的。
我们看原dede的列表。我们在浏览器里查看源文件。
查找以下代码：

上图中选中部分就是文章列表内容的开始处，而且在整个页面中是唯一的，因此我们就提取到了开始的HTML了
结束的HTML一般可以在列表下面的分页处找到，也是提取在正个页面源码中唯一标识的代码，看下图选中部分：

下面的【手工指定网址】就是你想特别采集什么网址，就直接填上即可。
路过这的也许还看过这些：【DEDECMS采集基础教程】分页采集篇（五）【DEDECMS采集基础教程】过滤规则篇（四）【DEDECMS采集基础教程】进行采集篇（三）【DEDECMS采集基础教程】采集规则篇（二）解决DEDECMS5.5在国外Linux主机下无法采集第一个dede主题如此抄袭？找回dedecms的管理员密码chi.mp系列教程引导chi.mp使用教程(五)
&#169; Johnny for 寂寞部屋, 2008. &#124;
Permalink &#124;
11 comments &#124;
Add to
del.icio.us

Post tags: cms, dede, 教程, 采集

Feed enhanced by Better Feed from  Ozh
]]></description>
			<content:encoded><![CDATA[<p>&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;-<br />
注：写此文的目的是将自己对dede的采集经验总结下，适合新手使用<br />
有什么不明白的地方可以PM我或在下面留言，我有时间会帮你解答。<br />
对DEDE我也是新手，还有很多不明白的欢迎一起交流学习。<br />
本教程我会分成几章写完，由于时间的关系先些第一部分</p>
<p>转载请注明Johnny原创：<a href="http://www.bokelife.com/show-414-1.html">http://www.bokelife.com/show-414-1.html</a></p>
<p><a href="http://www.bokelife.com/show-414-1.html">【DEDECMS采集基础教程】列表设置篇（一）</a></p>
<p><a href="http://www.bokelife.com/show-415-1.html">【DEDECMS采集基础教程】采集规则篇（二）</a></p>
<p><a href="http://www.bokelife.com/show-416-1.html">【DEDECMS采集基础教程】进行采集篇（三）</a></p>
<p><a href="http://www.bokelife.com/show-418-1.html">【DEDECMS采集基础教程】过滤规则篇（四）</a></p>
<p><a href="http://www.bokelife.com/show-419-1.html">【DEDECMS采集基础教程】分页采集篇（五）</a></p>
<p>&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;-</p>
<p>以dede的站长学院&gt;网页制作基础&gt;HTML/XHTML教程为例，地址是</p>
<p><a href="http://www.dedecms.com/web-art/htmlbase/HTML/">http://www.dedecms.com/web-art/htmlbase/HTML/</a></p>
<p>一，打开dedecms，进入【采集节点管理】，新建一个节点，模型我们就选择</p>
<div class="wp-caption alignnone" style="width: 356px"><a class="highslide-image" onclick="return hs.expand(this);" href="http://ra9iyg.blu.livefilestore.com/y1p_ukySo5J_Q0WQG-Fq5WwYnREsTWu9r_wk9pwYiyq45GqI4PhvxOncztR3nN_ZQGeFz7ncuk422qcbD1ehH0JoQ/268_1.jpg"><img title="Click to enlarge" src="http://ra9iyg.blu.livefilestore.com/y1p_ukySo5J_Q0WQG-Fq5WwYnREsTWu9r_wk9pwYiyq45GqI4PhvxOncztR3nN_ZQGeFz7ncuk422qcbD1ehH0JoQ/268_1.jpg" alt="image" width="346" height="140" /></a><p class="wp-caption-text">图1.</p></div>
<p>1、名称的话自己定义一个，主要是标识作用。</p>
<p>2、来源就自己定义个也可以，写上采集对象的信息也可以。</p>
<p>3、防盗链就看目标站点的有无刷新限制，有的话就设置一下超时时间，这个的话比较难判断，具体可以测试一下就知道。</p>
<p>4、页面编码就比较重要，可以在页面点击右键来看该页面的编码。</p>
<div class="wp-caption alignnone" style="width: 498px"><a class="highslide-image" onclick="return hs.expand(this);" href="http://ra9iyg.blu.livefilestore.com/y1pFUlWF9FM7beZyzdk7pLoWiE8y8yJSChioiqeNrQ1_9H9wTJchfDBSBSrQXbCTcq9ZX6wO9MbIK2fqFq_Wspb0g/269_2.jpg"><img title="Click to enlarge" src="http://ra9iyg.blu.livefilestore.com/y1pFUlWF9FM7beZyzdk7pLoWiE8y8yJSChioiqeNrQ1_9H9wTJchfDBSBSrQXbCTcq9ZX6wO9MbIK2fqFq_Wspb0g/269_2.jpg" alt="image" width="488" height="150" /></a><p class="wp-caption-text">图2.</p></div>
<p>三，设置采集列表：</p>
<p>先看看要采集的信息列表：</p>
<div class="wp-caption alignnone" style="width: 468px"><a class="highslide-image" onclick="return hs.expand(this);" href="http://ra9iyg.blu.livefilestore.com/y1p3LPppG0opYsdltEUy4u8AMBdf3dqlS0eaq0QkvP8r8BuSlrxtYl4YRmaFpHUMEwORlqq75h7EVhkbnrDpsDMUQ/270_3.jpg"><img title="Click to enlarge" src="http://ra9iyg.blu.livefilestore.com/y1p3LPppG0opYsdltEUy4u8AMBdf3dqlS0eaq0QkvP8r8BuSlrxtYl4YRmaFpHUMEwORlqq75h7EVhkbnrDpsDMUQ/270_3.jpg" alt="image" width="458" height="348" /></a><p class="wp-caption-text">图3.</p></div>
<p>来源网址很重要的。列表的获取就是从这里获取的。</p>
<p>自己打开：<a href="http://www.dedecms.com/web-art/htmlbase/HTML/">http://www.dedecms.com/web-art/htmlbase/HTML/</a></p>
<p>点击分页看下几个分页之间的URL有什么规则<br />
由此不难看出其中的规则可以看下面的url例子：<br />
<a href="http://www.dedecms.com/web-art/htmlbase/HTML/list_33">http://www.dedecms.com/web-art/htmlbase/HTML/list_33</a>_【除此外其他都一样】.html<br />
由此我们提取出来的规则就是换为变量值的形式<br />
<a href="http://www.dedecms.com/web-art/htmlbase/HTML/list_33_[var">http://www.dedecms.com/web-art/htmlbase/HTML/list_33_[var</a>:分页].html<br />
而变量起始值是1，结束值是3，就代表1至3的列表页了。</p>
<p>用正则匹配置网址就看本身是否有比较特定的文章网址字符。</p>
<p>下面的html范围就比较重要，采集的实际文章地址就是从这里获取的。</p>
<p>我们看原dede的列表。我们在浏览器里查看源文件。</p>
<p>查找以下代码：</p>
<p><a class="highslide-image" onclick="return hs.expand(this);" href="http://ra9iyg.blu.livefilestore.com/y1pO6G_bUG6lDfSD9AdWkEPL17Fn34yiPPs7Jv5YdtdSliHBE6-aMc_wUvwn3n0jItRsKBMIJRIgYuZhg4MBapXHg/271_4.jpg"><img title="Click to enlarge" src="http://ra9iyg.blu.livefilestore.com/y1pO6G_bUG6lDfSD9AdWkEPL17Fn34yiPPs7Jv5YdtdSliHBE6-aMc_wUvwn3n0jItRsKBMIJRIgYuZhg4MBapXHg/271_4.jpg" alt="image" width="501" height="99" /></a></p>
<p>上图中选中部分就是文章列表内容的开始处，而且在整个页面中是唯一的，因此我们就提取到了开始的HTML了</p>
<p>结束的HTML一般可以在列表下面的分页处找到，也是提取在正个页面源码中唯一标识的代码，看下图选中部分：</p>
<p><a class="highslide-image" onclick="return hs.expand(this);" href="http://ra9iyg.blu.livefilestore.com/y1pGYxfawo-dXPI-R2EGfwRrQKo206Lise4JYmoKOxGoVLHFSZltom595eqh9BpjuPvHPnjZQa427t1J1Sjir3WDQ/272_5.jpg"><img title="Click to enlarge" src="http://ra9iyg.blu.livefilestore.com/y1pGYxfawo-dXPI-R2EGfwRrQKo206Lise4JYmoKOxGoVLHFSZltom595eqh9BpjuPvHPnjZQa427t1J1Sjir3WDQ/272_5.jpg" alt="image" width="455" height="164" /></a></p>
<p>下面的【手工指定网址】就是你想特别采集什么网址，就直接填上即可。</p>
<h3  class="related_post_title">路过这的也许还看过这些：</h3><ul class="related_post"><li><a href="http://www.bokelife.com/post-699-699/" title="【DEDECMS采集基础教程】分页采集篇（五）">【DEDECMS采集基础教程】分页采集篇（五）</a></li><li><a href="http://www.bokelife.com/post-698-698/" title="【DEDECMS采集基础教程】过滤规则篇（四）">【DEDECMS采集基础教程】过滤规则篇（四）</a></li><li><a href="http://www.bokelife.com/post-696-696/" title="【DEDECMS采集基础教程】进行采集篇（三）">【DEDECMS采集基础教程】进行采集篇（三）</a></li><li><a href="http://www.bokelife.com/post-695-695/" title="【DEDECMS采集基础教程】采集规则篇（二）">【DEDECMS采集基础教程】采集规则篇（二）</a></li><li><a href="http://www.bokelife.com/dedecms-5-5-can-not-collect-1207/" title="解决DEDECMS5.5在国外Linux主机下无法采集">解决DEDECMS5.5在国外Linux主机下无法采集</a></li><li><a href="http://www.bokelife.com/first-dede-theme-832/" title="第一个dede主题">第一个dede主题</a></li><li><a href="http://www.bokelife.com/copy-like-this-727/" title="如此抄袭？">如此抄袭？</a></li><li><a href="http://www.bokelife.com/reset-dedecms-admin-password-1205/" title="找回dedecms的管理员密码">找回dedecms的管理员密码</a></li><li><a href="http://www.bokelife.com/chimp-tutorial-index-924/" title="chi.mp系列教程引导">chi.mp系列教程引导</a></li><li><a href="http://www.bokelife.com/chimp-step-by-step-five-923/" title="chi.mp使用教程(五)">chi.mp使用教程(五)</a></li></ul><hr />
<p><small>&copy; Johnny for <a href="http://www.bokelife.com">寂寞部屋</a>, 2008. |
<a href="http://www.bokelife.com/post-694-694/">Permalink</a> |
<a href="http://www.bokelife.com/post-694-694/#comments">11 comments</a> |
Add to
<a href="http://del.icio.us/post?url=http://www.bokelife.com/post-694-694/&amp;title=【DEDECMS采集基础教程】列表设置篇（一）">del.icio.us</a>
<br/>
Post tags: <a href="http://www.bokelife.com/Tag/cms/" rel="tag">cms</a>, <a href="http://www.bokelife.com/Tag/dede/" rel="tag">dede</a>, <a href="http://www.bokelife.com/Tag/%E6%95%99%E7%A8%8B/" rel="tag">教程</a>, <a href="http://www.bokelife.com/Tag/%E9%87%87%E9%9B%86/" rel="tag">采集</a><br/>
</small></p>
<p><small>Feed enhanced by <a href='http://planetozh.com/blog/my-projects/wordpress-plugin-better-feed-rss/'>Better Feed</a> from  <a href='http://planetozh.com/blog/'>Ozh</a></small></p>
]]></content:encoded>
			<wfw:commentRss>http://www.bokelife.com/post-694-694/feed/</wfw:commentRss>
		<slash:comments>11</slash:comments>
		</item>
	</channel>
</rss>
