推薦一個網頁抓取小工具Web Scraper

2019年11月14日05:05:06 科技 1247

推薦一個網頁抓取小工具Web Scraper - 天天要聞

想分享的這款工具是個Chrome下的插件,叫:Web Scraper,是一款可以從網頁中提取數據的Chrome網頁數據提取插件。在某種意義上,你也可以把它當做一個爬蟲工具

也是因為最近在梳理36氪文章一些標籤,打算看下別家和創投相關的網站有什麼標準可以參考,於是發現一家名叫:「烯牛數據」的網站,其提供的一套「行業體系」標籤很有參考價值,就說想把頁面上的數據抓下來,整合到我們自己的標籤庫中,如下圖紅字部分:

推薦一個網頁抓取小工具Web Scraper - 天天要聞

如果是規則展示的數據,還能用鼠標選擇後複製粘貼,但這種嵌入頁面中的,還是要想些辦法。這時想起之前安裝過Web Scraper,就用下試試,還挺好用的,一下子提高了收集效率。也給大家安利下~

Web Scraper這個Chrome插件,我是一年前在三節課的公開課上看到的,號稱不用懂編程也能實現爬蟲抓取的黑科技,不過貌似三節課官網上找不到了,大家可以百度:「三節課 爬蟲」,還能搜到,名字叫「人人都能學會的數據爬蟲課」,但好像還要交100塊錢。我是覺得這東西看看網上的文章也能學會,比如我這篇~

簡單來說,Web Scraper是個基於Chrome的網頁元素解析器,可以通過可視化點選操作,實現某個定製區域的數據/元素提取。同時它也提供定時自動提取功能,活用這個功能就可以當做一套簡單的爬蟲工具來用了。

這裡再順便解釋下網頁提取器抓取和真正代碼編寫爬蟲的區別,用網頁提取器自動提取頁面數據的過程,有點類似模擬人工點擊的機械人,它是先讓你定義好頁面上要抓哪個元素,以及要抓哪些頁面,然後讓機器去替人來操作;而如果你用Python寫爬蟲,更多是利用網頁請求指令先把整個網頁下載下來,再用代碼去解析HTML頁面元素,提取其中你想要的內容,再不斷循環。相比而言,用代碼會更靈活,但解析成本也會更高,如果是簡單的頁面內容提取,我也是建議用Web Scraper就夠了。

關於Web Scraper的具體安裝過程,以及完整功能的使用方法,我不會在今天的文章里展開說。第一是我只使用了我需要的部分,第二也是因為市面上講Web Scraper的教程很豐富,大家完全可以自行查找。

這裡只以一個實操過程,給大家簡單介紹下我是怎麼用的。

第一步 創建Sitemap

打開Chrome瀏覽器,按F12調出開發者工具,Web Scraper在最後一個頁簽,點擊後,再選擇「Create Sitemap」菜單,點擊「Create Sitemap」選項。

推薦一個網頁抓取小工具Web Scraper - 天天要聞

首先輸入你想抓取的網站URL,以及你自定義的這條抓取任務的名字,比如我取的name是:xiniulevel,URL是:http://www.xiniudata.com/industry/level

第二步 創建抓取節點

我想抓取的是一級標籤和二級標籤,所以先點進去剛才創建的Sitemap,再點擊「Add new selector」,進入抓取節點選擇器配置頁,在頁面上點擊「Select」按鈕,這時你會看到出現了一個浮層

推薦一個網頁抓取小工具Web Scraper - 天天要聞

這時當你鼠標移入網頁時,會自動把某個你鼠標懸停的位置綠色高亮。這時你可以先單擊一個你想選擇的區塊,會發現區塊變成了紅色,想把同一層級的區塊全選中,則可以繼續點擊相鄰的下一個區塊,這時工具會默認選中所有同級的區塊,如下圖:

推薦一個網頁抓取小工具Web Scraper - 天天要聞

我們會發現下方懸浮窗的文本輸入框自動填充了區塊的XPATH路徑,接着點擊「Done selecting!」結束選擇,懸浮框消失,選中的XPATH自動填充到下方Selector一行。另外務必選中「Multiple」,以聲明你要選多個區塊。最後點擊Save selector按鈕結束。

推薦一個網頁抓取小工具Web Scraper - 天天要聞

第三步 獲取元素值

完成Selector的創建後,回到上一頁,你會發現多了一行Selector表格,接下來就可以直接點擊Action中的Data preview,查看所有想獲取的元素值。

推薦一個網頁抓取小工具Web Scraper - 天天要聞

推薦一個網頁抓取小工具Web Scraper - 天天要聞

上圖所示部分,是我已經添加了一級標籤和二級標籤兩個Selector的情況,點擊Data preview的彈窗內容其實就是我想要的,直接複製到EXCEL就行了,也不用什麼太複雜的自動化爬取處理。

以上就是對Web Scraper使用過程的簡單介紹。當然我的用法還不是完全高效,因為每次想獲取二級標籤時還要先手動切換一級標籤,再執行抓取指令,應該還有更好的做法,不過對我而言已經足夠了。這篇文章主要是想和你普及下這款工具,不算教程,更多功能還是要根據你的需求自行摸索~

怎麼樣,是否有幫到你?期待你的留言與我分享~

科技分類資訊推薦

中鐵五局首台智能懸臂造橋機開始造橋 - 天天要聞

中鐵五局首台智能懸臂造橋機開始造橋

4月21日,隨着首罐混凝土開始泵送,中鐵五局首台智能懸臂造橋機開始正式投入使用,澆築成渝中線重慶段3標銅安高速雙線特大橋全線首個連續梁1#節段。 中鐵五局首台智能懸臂造橋機主要由承重桿件、....
驍龍8s Gen3續航巨無霸!iQOO Z9 Turbo今天發 - 天天要聞

驍龍8s Gen3續航巨無霸!iQOO Z9 Turbo今天發

快科技4月24日消息,今天19點,iQOO將正式發佈Z9系列新品,本次發佈會將同時推出iQOO Z9、iQOO Z9x以及iQOO Z9 Turbo。據悉,iQOO Z9和iQOO Z9 Turbo提供三大全新配色:山野青、星芒白和曜夜黑,iQOO Z9x提供星芒白、曜夜黑、風羽青等配色。其中定位最高的版本是iQOO Z9 Turbo,該機搭載高通驍龍8s
打探星艦2.0版開發現狀,何時試飛? - 天天要聞

打探星艦2.0版開發現狀,何時試飛?

翻譯翻譯馬斯克四月誑語 4月上旬,馬斯克在德州星艦基地演說中放出猛料:SpaceX正在打造更大更強悍的星艦2.0版本,以取代目前處在測試階段的星艦1.0版。這裡說的星艦2.0版本、1.0版本都是星艦系統(超重型火箭+星艦飛船)。●星艦2.0版本有多強大?▲馬斯克演說時發佈的三代星艦版本對照(左:目前1.0版本;中:2.0版本;...
2024款賽那,二排埃爾法同款座椅,8155芯片 - 天天要聞

2024款賽那,二排埃爾法同款座椅,8155芯片

【懂車之道  產品】近日,懂車之道獲悉,2024款豐田賽那正式發佈上市,共推出9款車型,官方售價區間為29.98-41.08萬元,綜合優惠後售價區間為28.48-39.58萬元,綜合優惠價包含建議零售價最高下調1萬元,官方App下定權益1.5萬元。下面,和大家一起來看看新車的產品力如何?外觀上,外形設計方面整體延續了2023款賽那SIENN...
蘋果發佈會官宣!最強iPad Pro蓄勢待發 - 天天要聞

蘋果發佈會官宣!最強iPad Pro蓄勢待發

快科技4月23日消息,今日晚間,蘋果官方宣布將於北京時間5月7日晚10點舉行Apple特別活動。這次蘋果特別活動的海報中出現了一支手寫筆,表明蘋果將在5月7日當天發佈新一代Apple Pencil和iPad系列新品。據悉,蘋果今年的春季發佈會將推出iPad Air、iPad Pro、妙控鍵盤和手寫筆等新品。其中iPad Air將會帶來12.9英寸、10.9英
今天公布的這新機,徹底殺瘋了 - 天天要聞

今天公布的這新機,徹底殺瘋了

嚯,很突然,魅族居然又要發新機了。 去年 11 月發佈魅族 21 標準版,今年 2 月發佈魅族 21 Pro 版。 可能有人估摸着,莫非是超大杯要來了? nonono,....
廣州也有!記者調查「共享員工」熱潮背後:是變相外包嗎? - 天天要聞

廣州也有!記者調查「共享員工」熱潮背後:是變相外包嗎?

今年春招市場,「共享員工」一詞火了。據媒體報道,這些「共享員工」一般不和企業簽訂固定合同,而是與企業就某一項目進行短期合作。因有助於節省人力成本、解決用工難等問題,「共享程序員」「共享設計師」等類型的「共享員工」成為企業招聘的熱門選擇。然而,也有員工認為,「共享員工」就是變相的「勞務派遣」「外包」,...
使用體驗再升級,華為擎雲 S520 Gen2能否助力中小企業辦公效能進階躍升? - 天天要聞

使用體驗再升級,華為擎雲 S520 Gen2能否助力中小企業辦公效能進階躍升?

中小企業在國民經濟發展的各個環節都發揮着重要作用。受限於規模,中小企業員工通常都是一人身兼多職。在無紙化辦公已成主流的當下,這意味着中小企業員工需要有一台足夠強勁的筆記本電腦,協助自己在重度辦公與混合辦公場景中迅速完成工作。鑒於工作條件的特殊性,這裡說到的「強勁」,可不單是性能方面。它還需要具備良好...