時間:2017-03-31 12:29:47 作者:不思議游戲 瀏覽量:93
獲取內容網址
有常規(guī)模式和高級模式兩種。
1.常規(guī)模式:該模式默認抓取一級地址,即從起始頁源代碼中獲取到內容頁A鏈接。
它有2種方式:a.自動獲取地址鏈接 b.手動設置規(guī)則獲取。
2.高級模式:該模式對0級,多級,POST類型網址的抓取有效。
即起始網址就是內容頁網址;
或者需要對多級列表網址采集才能得到最終內容頁鏈接;
或者是post網址類型抓取等情況下使用高級模式。
下面對常規(guī)模式采集進行具體說明
高級模式 詳細教程后續(xù)分解
[常規(guī)模式]a.自動獲取地址鏈接
自動獲取地址鏈接:自動獲取該級列表頁中所有的a標簽<a href="URL">內的URL鏈接
如新浪內地新聞:http://roll.news.sina.com.cn/article/gnxw/gdxw1/index.shtml
獲取結果如圖:
共81個一級網址,但實際我們需要抓取的1級網址是每頁40個,
所以我們可以通過區(qū)域設置和鏈接過濾設置 來獲取我們所需要的鏈接。
用谷歌瀏覽器在網頁上右擊——查看網頁源代碼,分析源碼得出:
開始字符串為<ul class="list_009">
結尾字符串為<!-- 分頁 begin -->
這樣我們再點擊網址采集測試,可以看出結果是正確的。
[常規(guī)模式]b.手動設置規(guī)則獲取
對于有些由腳本生成的網址,采集器不能自動識別,此時就要手動設置規(guī)則獲取了。
手動設置規(guī)則獲取設置原理是編寫腳本規(guī)則,去和源代碼里的內容匹配,獲取到自己設置的參數(shù)即可。
其中提取規(guī)則里的[參數(shù)],(*),[標簽:XXX]都是通配符,可以統(tǒng)配任意字符,
區(qū)別在于[參數(shù)]有返回值,一般用于拼接地址,(*)沒有返回值,[標簽:XXX]有返回值,返回值給標簽。
如新浪內地新聞:http://roll.news.sina.com.cn/article/gnxw/gdxw1/index.shtml
有如下源碼:
<li><a href="http://news.sina.com.cn/c/nd/2015-10-10/doc-ifxirmpy1472664.shtml" target="_blank">山西公布政府部門責任清單 建立拒腐機制</a><span>(10月10日 20:20)</span></li> <li><a href="http://news.sina.com.cn/c/nd/2015-10-10/doc-ifxirwnr6902154.shtml" target="_blank">河南登封市長被舉報建寺涉貪 與釋延魯關系密切</a><span>(10月10日 20:14)</span></li> <li><a href="http://news.sina.com.cn/c/nd/2015-10-10/doc-ifxirmqc5006034.shtml" target="_blank">張家界國土局副局長涉嚴重違紀被查</a><span>(10月10日 19:45)</span></li>
此時,我們可以取其中的一條代碼作為循環(huán)匹配,把我們要獲取的鏈接替換成[參數(shù)],需要采集到的值替換成標簽。 如:
<li><a href="[參數(shù)]" target="_blank">[標簽:title]</a><span>([標簽:time])</span></li>