新增採集節點:第一步設置基本信息及網址索引頁規則
節點基本信息
節點名稱:
目標頁面編碼:
GB2312
UTF8
BIG5
區域匹配模式:
正則表達式
字符串
內容導入順序:
與目標站一致
與目標站相反
以下選項僅在開啟防盜鏈模式才需設定,如果目標網站沒有防盜鏈功能請不要開啟,否則會降低採集速度。
防盜鏈模式:
不開啟
開啟
資源下載超時時間:
秒
引用網址:
(一般為目標網站其中一個文章頁的網址)
列表網址獲取規則
來源屬性:
批量生成列表網址
手工指定列表網址
從RSS中獲取
RSS網址:
批量生成地址設置:
匹配網址:
(如:http://www.dedecms.com/html/test/list_(*).html,如果不能匹配所有網址,可以在手工指定網址的地方輸入要追加的網址)
(*)從
到
(頁碼或規律數字) 每頁遞增:
啟用多欄目通配(#)
手工指定網址:
在指定了通配規則後有些不能匹配的網址也可以在這裡指定。
多欄目通配規則:
如果目標網站使用單一模板,可以在匹配網址中用"(#)"表示近似網址的差異,然後在通配規則中設定集合,並且可以指定導出欄目。
格式為:「[(#)=通配字符串; (*)=num-num; typeid=num]換行」
例如:[(#)=>labs/list_3; (*)=>1-25; typeid=>7] 匹配網址:http://www.aaa.com/(#)_(*).html
文章網址匹配規則
內容網址匹配模式:
指定包含有文章網址的區域(可以獲取區域的網址、標題、圖片等信息)
指定網址正則表達式(僅能獲得網址信息)
網址的正則表達式:
包含有文章網址的區域設置:
區域開始的HTML:
區域結束的HTML:
如果鏈接中含有圖片:
不處理
採集為縮略圖
對區域網址進行再次篩選:
(使用正則表達式)
必須包含:
(優先級高於後者)
不能包含: