采集器说明

基本设置说明

网页编码
    最好选择正确的编码 否则可能存在乱码
列表采集模式
    正则
    phpQuery

列表网址
    要采集的列表页

列表区域规则
    正则模式
        <%content%> 匹配的内容
    phpQuery 模式
       例:div.xxx li a
       需要匹配到 a 标签上

列表区域整理
    正则模式
        具体见[规则数据整理说明]
    phpQuery 模式
        此处为空

列表链接规则
    正则模式
        <%title%> 标题
        <%url%>   网址
        <%var_TM%>
    phpQuery 模式
        一般为固定值
        text 或者 title
        href

网址合成
    前面列表采集的网址
    <%url%>
    例:采到网址为/sss/sss.html
    实际网址为 http://www.xxxx.com/sss/sss.html
    可填写为 http://www.xxxx.com<%url%>

网址整理
    对<%url%>进行整理
    具体见[规则数据整理说明]

数据项说明

  • 数据项名称说明

字段
    例:title
    标题字符

PRE:字段
    例:PRE:body
     * [PRE:body]
     * 把 PRE:body 采集到的数据 当做原始数据
     * 一般用于下载内容

DATA:字段
    例:DATA:body
     * 把之前[body]处理完的数据当作原始数据
     * 如果之前有数据会叠加
     * 用于数据多次处理
EMPTY:name
    如果[name]之前抓取结果数据为空使用这个数据项替换

字段.字段
    例:metadata.xxx
    * 采集内容做为数组

规则特殊字符

<%content%>
    内容
<%var_nz%>
    任意字符

[DATA@字段]
    例:[DATA@name]
    例:[DATA@name.key]
    * 内容回调 可以在规则里调用之前内容

phpQuery模式
    右侧勾选phpQuery
    可使用jquery模式采集
    例:div.xxx

RULE@规则ID
    使用[规则ID]采集

RAND@长度,(0:数字+字母,1:数字)
    RAND@10,0 10位数字+字母
    RAND@10,1 数字
    返回随机数
  • 规则 数据整理说明

采集后整理
    抓取html后取出匹配后数据

发布前整理
    数据经[采集后整理]处理后
    在发布前

替换
    例:xxx==ooo
    把xxx替换成ooo
清除
    例:xxx
    直接把xxx字符清除
正则
    例:<%\d+%> 替换所有数字
    例:<%\w+%> 替换所有字母数字
    例:<%(\d+)%>==$1xxxx 所有数字替换成 数字xxxx
    例:<%.+%> 替换所有字符
  • 规则 数据整理特殊字符

<BR>
    例:<BR>
    换行

<%SELF%>
    例:<%SELF%>
    替换成内容 本行无替换/正则效果

BEFOR::
    例:BEFOR::xxx
    将xxx放置在内容前

AFTER::
    例:AFTER::xxx
    将xxx放置在内容后

NEED::
    例:NEED::xxx
    必需包含xxx 否则返回空

NOT::
    例:NOT::xxx
    不能包含xxx 否则返回空

LEN::
    例:LEN::5
    必需长度为5个字符 否则返回空

IMG::
    例:IMG::5
    必需有5张图片 否则返回空

DOM::
    例:DOM::div.xxx
    使用phpquery

~SELF~
    例:~SELF~==1111
    替换掉自身内容

~S~
    例:~S~
    替换掉空格

分页设置说明

使用分页采集
需要在 数据项 任意一项中 勾选 [有分页] 选项

分页数据获取方式
    采集方式

    逻辑方式
        当前网址分解:<%url%>
        例: 当前网址
            [http://www.xxx.com/asd/123213.html]
            分页网址为
            [http://www.xxx.com/asd/123213_2.html]
            [http://www.xxx.com/asd/123213_3.html]
            当前网址分解:<%url%>.html

        分页增量
            起始编号[分页数开始数字]
            结束编号[分页数结束数字]
            步长[分页数的增幅度]

            分页网址为
            [http://www.xxx.com/asd/123213_2.html]
            [http://www.xxx.com/asd/123213_3.html]
            [http://www.xxx.com/asd/123213_20.html]
            共20页
            起始编号:2
            结束编号:20
            步长:1


分页有效特征码
    分页内容必需出现此特征码

分页无效特征码
    分页内容如果出现此特征码
    停止采集
    并设置为无效分页

网址合成
    <%url%> 分页网址
    <%step%> 分页增量