推薦一個網頁抓取小工具Web Scraper

2019年11月14日05:05:06 科技 1247

推薦一個網頁抓取小工具Web Scraper - 天天要聞

想分享的這款工具是個Chrome下的插件,叫:Web Scraper,是一款可以從網頁中提取數據的Chrome網頁數據提取插件。在某種意義上,你也可以把它當做一個爬蟲工具

也是因為最近在梳理36氪文章一些標籤,打算看下別家和創投相關的網站有什麼標準可以參考,於是發現一家名叫:「烯牛數據」的網站,其提供的一套「行業體系」標籤很有參考價值,就說想把頁面上的數據抓下來,整合到我們自己的標籤庫中,如下圖紅字部分:

推薦一個網頁抓取小工具Web Scraper - 天天要聞

如果是規則展示的數據,還能用鼠標選擇後複製粘貼,但這種嵌入頁面中的,還是要想些辦法。這時想起之前安裝過Web Scraper,就用下試試,還挺好用的,一下子提高了收集效率。也給大家安利下~

Web Scraper這個Chrome插件,我是一年前在三節課的公開課上看到的,號稱不用懂編程也能實現爬蟲抓取的黑科技,不過貌似三節課官網上找不到了,大家可以百度:「三節課 爬蟲」,還能搜到,名字叫「人人都能學會的數據爬蟲課」,但好像還要交100塊錢。我是覺得這東西看看網上的文章也能學會,比如我這篇~

簡單來說,Web Scraper是個基於Chrome的網頁元素解析器,可以通過可視化點選操作,實現某個定製區域的數據/元素提取。同時它也提供定時自動提取功能,活用這個功能就可以當做一套簡單的爬蟲工具來用了。

這裡再順便解釋下網頁提取器抓取和真正代碼編寫爬蟲的區別,用網頁提取器自動提取頁面數據的過程,有點類似模擬人工點擊的機械人,它是先讓你定義好頁面上要抓哪個元素,以及要抓哪些頁面,然後讓機器去替人來操作;而如果你用Python寫爬蟲,更多是利用網頁請求指令先把整個網頁下載下來,再用代碼去解析HTML頁面元素,提取其中你想要的內容,再不斷循環。相比而言,用代碼會更靈活,但解析成本也會更高,如果是簡單的頁面內容提取,我也是建議用Web Scraper就夠了。

關於Web Scraper的具體安裝過程,以及完整功能的使用方法,我不會在今天的文章里展開說。第一是我只使用了我需要的部分,第二也是因為市面上講Web Scraper的教程很豐富,大家完全可以自行查找。

這裡只以一個實操過程,給大家簡單介紹下我是怎麼用的。

第一步 創建Sitemap

打開Chrome瀏覽器,按F12調出開發者工具,Web Scraper在最後一個頁簽,點擊後,再選擇「Create Sitemap」菜單,點擊「Create Sitemap」選項。

推薦一個網頁抓取小工具Web Scraper - 天天要聞

首先輸入你想抓取的網站URL,以及你自定義的這條抓取任務的名字,比如我取的name是:xiniulevel,URL是:http://www.xiniudata.com/industry/level

第二步 創建抓取節點

我想抓取的是一級標籤和二級標籤,所以先點進去剛才創建的Sitemap,再點擊「Add new selector」,進入抓取節點選擇器配置頁,在頁面上點擊「Select」按鈕,這時你會看到出現了一個浮層

推薦一個網頁抓取小工具Web Scraper - 天天要聞

這時當你鼠標移入網頁時,會自動把某個你鼠標懸停的位置綠色高亮。這時你可以先單擊一個你想選擇的區塊,會發現區塊變成了紅色,想把同一層級的區塊全選中,則可以繼續點擊相鄰的下一個區塊,這時工具會默認選中所有同級的區塊,如下圖:

推薦一個網頁抓取小工具Web Scraper - 天天要聞

我們會發現下方懸浮窗的文本輸入框自動填充了區塊的XPATH路徑,接着點擊「Done selecting!」結束選擇,懸浮框消失,選中的XPATH自動填充到下方Selector一行。另外務必選中「Multiple」,以聲明你要選多個區塊。最後點擊Save selector按鈕結束。

推薦一個網頁抓取小工具Web Scraper - 天天要聞

第三步 獲取元素值

完成Selector的創建後,回到上一頁,你會發現多了一行Selector表格,接下來就可以直接點擊Action中的Data preview,查看所有想獲取的元素值。

推薦一個網頁抓取小工具Web Scraper - 天天要聞

推薦一個網頁抓取小工具Web Scraper - 天天要聞

上圖所示部分,是我已經添加了一級標籤和二級標籤兩個Selector的情況,點擊Data preview的彈窗內容其實就是我想要的,直接複製到EXCEL就行了,也不用什麼太複雜的自動化爬取處理。

以上就是對Web Scraper使用過程的簡單介紹。當然我的用法還不是完全高效,因為每次想獲取二級標籤時還要先手動切換一級標籤,再執行抓取指令,應該還有更好的做法,不過對我而言已經足夠了。這篇文章主要是想和你普及下這款工具,不算教程,更多功能還是要根據你的需求自行摸索~

怎麼樣,是否有幫到你?期待你的留言與我分享~

科技分類資訊推薦

全球媒體聚焦丨79%全球專利+80%市場份額!外媒從一場救援看中國無人機產業實力 - 天天要聞

全球媒體聚焦丨79%全球專利+80%市場份額!外媒從一場救援看中國無人機產業實力

近日,一段中國無人機在洪水中成功營救被困人員的短視頻在海外社交平台廣泛傳播,多家國際媒體也競相報道,並深入探討中國無人機產業技術發展與創新應用。 《紐約時報》網站截圖 據了解,這段短視頻中的救援發生在廣西柳州三江侗族自治縣一村莊。受上游來水影響,這個村子裏一些處於低洼地帶的房屋被淹。由於水流上漲快,一...
博士天團攻堅激光芯片,拿到3個億融資 - 天天要聞

博士天團攻堅激光芯片,拿到3個億融資

記者|鄢子為編輯|陳曉平7月1日,北京颶芯科技對外官宣,完成3億元B輪融資。颶芯成立於2017年7月,核心團隊由多名經驗豐富的博士組成,主攻氮化鎵激光芯片產業化,實現關鍵核心器件的自主可控。本輪融資,颶芯獲得國家基金、半導體產業方和一線投資機構的認可。3億融資由深創投製造業轉型升級新材料基金(國家製造業轉型升...
臻寶科技科創板IPO獲受理 系半導體零部件製造商 大基金二期等參投 - 天天要聞

臻寶科技科創板IPO獲受理 系半導體零部件製造商 大基金二期等參投

《科創板日報》7月2日訊(記者 黃修眉 實習記者 戴嘉怡) 重慶臻寶科技股份有限公司(下稱「臻寶科技」)科創板IPO申請近日獲上交所受理,輔導機構為中信證券。臻寶科技是國內少數實現集成電路先進制程設備和高世代、高電壓顯示面板製造設備非金屬零部件多品類供應、規模化量產的企業之一。此次IPO,臻寶科技擬募資13.98億...
BW2025即將開展,技嘉AORUS雕妹約你3H|3A08 雕宅見 - 天天要聞

BW2025即將開展,技嘉AORUS雕妹約你3H|3A08 雕宅見

史上規模空前的BilibiliWorld2025將於2025年7月11日-13日在上海國家會展中心開展!知名電競硬件品牌技嘉AORUS已確認參展,為玩家打造遊戲盛宴。現場不僅能體驗新款硬核電競裝備、暢玩熱門遊戲大作,參與激烈的1V1對戰PK,更有甜辣萌趣的雕妹喊你3H|3A08等你來!多重互動火力全開,帶你玩轉整個BW,開啟今夏最燃電競狂歡。...
35項服務可跨境辦理,「澳政易」自助服務機上線珠海市民服務中心 - 天天要聞

35項服務可跨境辦理,「澳政易」自助服務機上線珠海市民服務中心

「十幾分鐘就辦完了,現場的協助人員指導我操作,太方便了!」7月1日上午,澳門居民梁女士來到珠海市民服務中心1號樓3樓的綜合服務廳辦理業務,在工作人員的幫助下,她在港澳跨境服務自助辦理區的「澳政易」自助服務機上很快就辦完了身份證明業務。6月30日,廣州、珠海、中山、江門四個大灣區城市的政務服務中心正式啟用了...
65億美元芯片收購案,遭美國二次調查 - 天天要聞

65億美元芯片收購案,遭美國二次調查

本文由半導體產業縱橫(ID:ICVIEWS)綜合 美國FTC對軟銀收購Ampere展開深度調查。 據知情人士透露,美國聯邦貿易委員會就軟銀擬收購 Arm 服務器處理器廠商Ampe....
DRAM市場,將創新高 - 天天要聞

DRAM市場,將創新高

本文由半導體產業縱橫(ID:ICVIEWS)綜合 傳統通用型DRAM和服務器高價值DRAM量價齊升雙重驅動,2025年DRAM市場有望創新高。 根據CFM最新報告顯示,2025年....
國產晶圓代工,市場巨變! - 天天要聞

國產晶圓代工,市場巨變!

未來十年,將是晶圓代工業的關鍵轉折期。 這一判斷,在近期一組數據中得到了清晰印證。根據 Yole Group 的最新報告,中國大陸有望在 2030 年超越中國台灣,躍居全球最大半導體晶圓代....