爬山虎采集器是一款適合絕大多數網站的網頁信息采集軟件,爬山虎采集器能夠達到智能識別、快速采集、生成多格式數據輸出的效果,滿足您對指定網頁數據采集的需求。

軟件特點
1、一鍵提取數據:簡單易學,通過可視化界面,鼠標點擊即可抓取數據。
2、快速高效:內置一套高速瀏覽器內核,加上HTTP引擎模式,實現快速采集數據。
3、適用于各種網站:能夠采集互聯網99%的網站,包括單頁應用、Ajax加載等等動態類型網站。
4、導出數據類型豐富,可以將采集到的數據導出為Csv、Excel以及各種數據庫,支持api導出。
軟件功能
1、向導模式:簡單易用,輕松通過鼠標點擊自動生成;
2、腳本定時運行:可按照計劃定時運行,無需人工;
3、獨創高速內核:自研的瀏覽器內核,速度飛快,遠超對手;
4、智能識別:對于網頁中的列表、表單結構(多選框下拉列表等)能夠智能識別;
5、廣告屏蔽:定制的廣告屏蔽模塊,兼容AdblockPlus語法,可添加自定義規則;
6、多種數據導出:支持Txt 、Excel、MySQL、SQLServer、SQlite、Access、網站等。
核心技術
1、自動識別列表數據,通過智能算法,一鍵提取數據;
2、自動識別分頁技術,通過算法智能識別、采集分頁數據;
3、混合瀏覽器引擎和HTTP引擎,兼顧了易用性和效率。
使用方法
一:輸入采集網址
打開軟件,新建任務,輸入需要采集的網站地址。
二:智能分析,全程自動化提取數據
進入到第二步后,爬山虎采集器全自動智能分析網頁,并且從中提取出列表數據。
三:導出數據到表格、數據庫、網站等
運行任務,將采集到的數據導出為表格、網站以及各種數據庫,支持api導出。
電腦系統要求
可支持windows XP以上的系統。
.Net 4.0 Framework框架,下載地址
安裝步驟
第一步:打開下載好的安裝包,直接選擇運行。
第二步:接收相關條款后,運行安裝程序PashanhuV2Setup.exe。 install
第三步:然后一直點擊下一步,直到完成。
第四步:安裝完成后,可以看到爬山虎采集器V2的主界面 main
FAQ
1、如何采集手機版網頁的數據?
一般情況下,一個網站有電腦版網頁和手機版網頁,如果電腦版(PC)網頁的反爬蟲很嚴格的話,我們就可以嘗試抓取手機網頁。
①選擇新建編輯任務;
②在新建的【編輯任務】中,選擇【第三步、設置】;
③設置UA(瀏覽器標識)為“手機”即可。
2、如何手動選擇列表數據(當自動識別失敗時)
在采集列表頁時,如果自動識別列表失敗,或者識別的數據不是我們想到的數據,這時我們就需要手動選擇列表數據。
如何手動選擇列表數據呢?
①點擊【清空所有】,把已有字段清空掉。
②點擊菜單欄的【列表數據】,選擇【選擇列表】
③用鼠標點擊列表中的任一元素。
④在點擊列表中另一行的一個相似元素。
一般情況下,這時采集器會自動列舉出列表中的所有字段。我們在對結果進行一些修改即可。
如果沒有列舉出字段的話,就需要我們手動添加字段。點擊【添加字段】,然后點擊列表中的元素數據即可。
3、采集文章正文時,鼠標無法選中整個內容時怎么辦?
一般情況下,在爬山虎采集器中,通過鼠標點擊,選擇要抓取的內容。但是在一些情況下,比如要抓取一篇文章的完整內容時,內容較長時,鼠標有時就不好定位了。
①我們可以通過右擊網頁選擇【檢查元素】,來定位內容。
②通過點擊【向上】按鈕,擴大選擇的內容。
③當擴大到我們的整篇內容時,全選中【XPath】,然后復制。
④修改字段的XPath,把剛才復制的XPath粘貼進去,確定。
⑤最后,修改取值屬性,想要HMTL就使用InnerHTML或者OuterHTML。
軟件特別說明
360安全衛士用戶注意:由于360軟件的誤報原因,個別文件被刪除(包括uninst.exe),導致程序無法正常運行,請在安裝前退出360軟件




