爬山虎采集器是一款適合絕大多數網站的網頁信息采集軟件,爬山虎采集器能夠達到智能識別、快速采集、生成多格式數據輸出的效果,滿足您對指定網頁數據采集的需求。

截圖


軟件特點


1、一鍵提取數據:簡單易學,通過可視化界面,鼠標點擊即可抓取數據。

2、快速高效:內置一套高速瀏覽器內核,加上HTTP引擎模式,實現快速采集數據。

3、適用于各種網站:能夠采集互聯網99%的網站,包括單頁應用、Ajax加載等等動態類型網站。

4、導出數據類型豐富,可以將采集到的數據導出為Csv、Excel以及各種數據庫,支持api導出。


軟件功能


1、向導模式:簡單易用,輕松通過鼠標點擊自動生成;

2、腳本定時運行:可按照計劃定時運行,無需人工;

3、獨創高速內核:自研的瀏覽器內核,速度飛快,遠超對手;

4、智能識別:對于網頁中的列表、表單結構(多選框下拉列表等)能夠智能識別;

5、廣告屏蔽:定制的廣告屏蔽模塊,兼容AdblockPlus語法,可添加自定義規則;

6、多種數據導出:支持Txt 、Excel、MySQL、SQLServer、SQlite、Access、網站等。


核心技術


1、自動識別列表數據,通過智能算法,一鍵提取數據;

2、自動識別分頁技術,通過算法智能識別、采集分頁數據;

3、混合瀏覽器引擎和HTTP引擎,兼顧了易用性和效率。


使用方法


一:輸入采集網址

打開軟件,新建任務,輸入需要采集的網站地址。

二:智能分析,全程自動化提取數據

進入到第二步后,爬山虎采集器全自動智能分析網頁,并且從中提取出列表數據。

三:導出數據到表格、數據庫、網站等

運行任務,將采集到的數據導出為表格、網站以及各種數據庫,支持api導出。


電腦系統要求


可支持windows XP以上的系統。

.Net 4.0 Framework框架,下載地址


安裝步驟


第一步:打開下載好的安裝包,直接選擇運行。

第二步:接收相關條款后,運行安裝程序PashanhuV2Setup.exe。 install

截圖

第三步:然后一直點擊下一步,直到完成。

第四步:安裝完成后,可以看到爬山虎采集器V2的主界面 main

截圖


FAQ


1、如何采集手機版網頁的數據?

一般情況下,一個網站有電腦版網頁和手機版網頁,如果電腦版(PC)網頁的反爬蟲很嚴格的話,我們就可以嘗試抓取手機網頁。

①選擇新建編輯任務;

②在新建的【編輯任務】中,選擇【第三步、設置】;

截圖

③設置UA(瀏覽器標識)為“手機”即可。

2、如何手動選擇列表數據(當自動識別失敗時)

在采集列表頁時,如果自動識別列表失敗,或者識別的數據不是我們想到的數據,這時我們就需要手動選擇列表數據。

如何手動選擇列表數據呢?

①點擊【清空所有】,把已有字段清空掉。

截圖

②點擊菜單欄的【列表數據】,選擇【選擇列表】

截圖

③用鼠標點擊列表中的任一元素。

截圖

④在點擊列表中另一行的一個相似元素。

截圖

一般情況下,這時采集器會自動列舉出列表中的所有字段。我們在對結果進行一些修改即可。

如果沒有列舉出字段的話,就需要我們手動添加字段。點擊【添加字段】,然后點擊列表中的元素數據即可。

3、采集文章正文時,鼠標無法選中整個內容時怎么辦?

一般情況下,在爬山虎采集器中,通過鼠標點擊,選擇要抓取的內容。但是在一些情況下,比如要抓取一篇文章的完整內容時,內容較長時,鼠標有時就不好定位了。

①我們可以通過右擊網頁選擇【檢查元素】,來定位內容。

截圖

②通過點擊【向上】按鈕,擴大選擇的內容。

截圖

③當擴大到我們的整篇內容時,全選中【XPath】,然后復制。

截圖

④修改字段的XPath,把剛才復制的XPath粘貼進去,確定。

截圖

⑤最后,修改取值屬性,想要HMTL就使用InnerHTML或者OuterHTML。

截圖

軟件特別說明

360安全衛士用戶注意:由于360軟件的誤報原因,個別文件被刪除(包括uninst.exe),導致程序無法正常運行,請在安裝前退出360軟件

爬山虎采集器下載 爬山虎采集器官方免費下載[采集工具]下載地址

遠程下載