極速下載站 —— 提供優(yōu)質軟件下載服務,感受全新的極速下載體驗!

最近更新 | 軟件專題 | 軟件分類 | 軟件排行

您的位置:極速下載站資訊首頁軟件教程電腦軟件教程 → 火車采集器獲取內容網址教程

火車采集器獲取內容網址教程

時間:2017-03-31 12:29:47  作者:不思議游戲  瀏覽量:93

火車采集器獲取內容網址教程預覽圖

獲取內容網址

有常規(guī)模式和高級模式兩種。
1.常規(guī)模式:該模式默認抓取一級地址,即從起始頁源代碼中獲取到內容頁A鏈接。
它有2種方式:a.自動獲取地址鏈接 b.手動設置規(guī)則獲取。
2.高級模式:該模式對0級,多級,POST類型網址的抓取有效。
即起始網址就是內容頁網址;
或者需要對多級列表網址采集才能得到最終內容頁鏈接;
或者是post網址類型抓取等情況下使用高級模式。

下面對常規(guī)模式采集進行具體說明
高級模式 詳細教程后續(xù)分解

[常規(guī)模式]a.自動獲取地址鏈接

自動獲取地址鏈接:自動獲取該級列表頁中所有的a標簽<a href="URL">內的URL鏈接
新浪內地新聞:http://roll.news.sina.com.cn/article/gnxw/gdxw1/index.shtml

獲取結果如圖:

圖:新建任務規(guī)則

共81個一級網址,但實際我們需要抓取的1級網址是每頁40個,
所以我們可以通過區(qū)域設置和鏈接過濾設置 來獲取我們所需要的鏈接。

用谷歌瀏覽器在網頁上右擊——查看網頁源代碼,分析源碼得出:
開始字符串為<ul class="list_009">
結尾字符串為<!-- 分頁 begin -->

圖:新建任務規(guī)則

這樣我們再點擊網址采集測試,可以看出結果是正確的。

圖:新建任務規(guī)則

[常規(guī)模式]b.手動設置規(guī)則獲取

對于有些由腳本生成的網址,采集器不能自動識別,此時就要手動設置規(guī)則獲取了。
手動設置規(guī)則獲取設置原理是編寫腳本規(guī)則,去和源代碼里的內容匹配,獲取到自己設置的參數(shù)即可。
其中提取規(guī)則里的[參數(shù)],(*),[標簽:XXX]都是通配符,可以統(tǒng)配任意字符,
區(qū)別在于[參數(shù)]有返回值,一般用于拼接地址,(*)沒有返回值,[標簽:XXX]有返回值,返回值給標簽。

如新浪內地新聞:http://roll.news.sina.com.cn/article/gnxw/gdxw1/index.shtml

有如下源碼:

<li><a href="http://news.sina.com.cn/c/nd/2015-10-10/doc-ifxirmpy1472664.shtml" target="_blank">山西公布政府部門責任清單 建立拒腐機制</a><span>(10月10日 20:20)</span></li> <li><a href="http://news.sina.com.cn/c/nd/2015-10-10/doc-ifxirwnr6902154.shtml" target="_blank">河南登封市長被舉報建寺涉貪 與釋延魯關系密切</a><span>(10月10日 20:14)</span></li> <li><a href="http://news.sina.com.cn/c/nd/2015-10-10/doc-ifxirmqc5006034.shtml" target="_blank">張家界國土局副局長涉嚴重違紀被查</a><span>(10月10日 19:45)</span></li>

此時,我們可以取其中的一條代碼作為循環(huán)匹配,把我們要獲取的鏈接替換成[參數(shù)],需要采集到的值替換成標簽。 如:

<li><a href="[參數(shù)]" target="_blank">[標簽:title]</a><span>([標簽:time])</span></li>

圖:新建任務規(guī)則

火車采集器 9.8.0 官方版

火車采集器圖片
  • 軟件性質:國產軟件
  • 授權方式:免費版
  • 軟件語言:簡體中文
  • 軟件大。23789 KB
  • 下載次數(shù):2977 次
  • 更新時間:2019/4/8 17:01:06
  • 運行平臺:WinAll...
  • 軟件描述:火車采集器是使用人數(shù)比較多的互聯(lián)網數(shù)據(jù)挖掘軟件。能采集99%的網頁,就算網頁需要... [立即下載]

相關資訊

相關軟件

電腦軟件教程排行
最新電腦軟件教程
軟件教程分類

更多常用電腦軟件

更多同類軟件專題