[采集参数列表] [手工添加新规则] [导入新规则] [下载新规则] [修改标题参数] [修改内容参数]
>>内容采集规则设置
类似奇虎/大旗框架对方网页即可 内容采集(常用,请选择) 高级采集(一般不用)
是否过滤相同的标题而不采集:
(目的,防止采集重复文章)
是过滤 不过滤
自定义正则语法规则(即用通配符替换原文内容):
第一步,打开查看任意一篇要采集的文章详细内容页HTML网页源代码.
第二步,查看网页源代码,找到文章内容,删除他,用通配符{content=*}替换,然后再把他前面与后面的一小段代码也复制过来即可.

简单举例(常用):比如被采集的网站内容页的html代码如下
<tr><td>文章内容部分</td></tr><table>
那么右边输入
<tr><td>{content=*}</td></tr><table>

说明:通配符的前后有一小段HTML代码,是不可少的,目的是为了找规则,不需要太多,也不要太少,达到唯一性即可.

复杂举例(少用):比如内容的html代码如下
时间:2008-12-24 12:13abc不相关内容作者:张三abc不相关内容来源:php168网站abc不相关内容<tr><td class="asc">文章内容部分</td></tr><table>
那么右边输入
时间:{posttime=*}abc{*}作者:{author=*}abc{*}来源:{copyfrom=*}abc{*}<tr><td class="asc" >{content=*}</td></tr><table>
注意:除内容外,其它每个参数后面,一般都带有{*}非相关内容的通配符,通配符前面都有一个固定的字符,不能缺少固定的字符,如abc

必须要注意的是:
为何要取内容的html代码如下
<tr><td>文章内容部分</td></tr><table>
那么右边输入
<tr><td>{content=*}</td></tr><table>
而不是
<tr><td>文章内容部分</td></tr>
那么右边输入
<tr><td>{content=*}</td></tr>
这个呢?
为什么要多一段 <table> 呢?其实少这一段也是可以的,但就有可能采集到其他内容,即是精确度不高.代码多一点,精确度就高一点,但也不是越多越好.因为太多的话.有可能就采集不到了.

注意: 如果你采集的不仅仅是内容,还有其它作者、来源等参数,注意不能缺少{*},{*}代表非相关内容的通用代表符.
如果想尽可能的做到绝对精确,你设置以下的完毕后,请再点击上方的[采集文章]进行采集主内容设置
文件后缀名
采集图片的话,请输入jpgjpg|gif,FLASH的话.请输入swf
文件地址开头必须有的字符
适用于哪个系统:
文章系统的话写article,其他可选参数为music,mv,photo,flash,down
留空,则为文章
文件url地址长度不能小于

文件不能小于多少字节

最好留空,极影响效率
文件URL地址必须包含有的字符

多个请换行
文件URL地址不能包含有的字符


多个请换行
文件url分隔符

一般是src=
为了更准确的话,也可以再长一点
显示不常用的高级设置(一般不用)
要替换文章中的字符:

目的,过滤不愿意看到的文字
格式为旧字符|新字符
多页处理:默认首页被替换的字符
(如留空,内容如有多页将不采集直接跳过)
比如:
第一页http://php168.com/1/index.html
第二页http://php168.com/1/index_2.html
那么右边的表单填.html
分析规则就是对比第一页与第二页的网址从左到右哪个字符出现不同,就把之后的字符复制出来
多页处理:变动的页去替换的字符
(留空,内容如有多页将不采集直接跳过)
比如:
第一页http://php168.com/1/index.html
第二页http://php168.com/1/index_2.html
那么右边的表单填_[page].html
分析规则就是对比第一页与第二页的网址从左到右哪个字符出现不同,就把第二页之后的字符复制出来,并把变动的页码数字用[page]替换
多页时.第二页是否怪癖,
比如:
第一页http://php168.com/1/index.html
第二页http://php168.com/1/index_1.html
此时属于怪癖的,理论上应该是
第三页http://php168.com/1/index_2.html
所以右边请选择是,一般情况都是选否的
开头PHP正则程序语法

(适合处理采集比较怪僻的网站.不懂PHP程序的,请留空,否则会出现严重问题使得采集程序无法运行)
结尾PHP正则程序语法

(适合处理采集比较怪僻的网站.不懂PHP程序的,请留空,否则会出现严重问题使得采集程序无法运行)
采集文件结尾的PHP正则程序语法

(适合处理采集比较怪僻的网站.不懂PHP程序的,请留空,否则会出现严重问题使得采集程序无法运行)
帮助说明
1.通配符说明:内容通配符是{content=*},不相关内容通配符是{*},作者通配符是{author=*},来源通配符是{copyfrom=*},日期通配符是{posttime=*},浏览量通配符是{hits=*}
2.当你仅仅获取内容时,是不需要用到“不相关内容”通配符的,否则是必须要用到“不相关内容”通配符的,不使用{*}的话,基本上是采集不成功。
3.针对于非文章模型的采集,你需要查看对应的自定义字段的英文字段名,即{自定义字段名=*}即可,如字段名是abcd,那么通配符是{abcd=*}
4.对于自定义模型,任何一个自定义字段,都是可以采集入库的.
5.采集器的原理就是查看网页源代码,找到要采集的字符串用通配符替换.如果要采集的不仅仅是文章内容的话,也即要采集两项以上的话,就必须要使用“不相关内容通配符”,但是采集字段的通配符后面或前面不能直接是{*},必须要有其它至少一个以上的HTML代码隔开