推薦一個網頁抓取小工具Web Scraper

分類：科技

瀏覽數：1247

2019-11-14

想分享的這款工具是個Chrome下的插件，叫：Web Scraper，是一款可以從網頁中提取數據的Chrome網頁數據提取插件。在某種意義上，你也可以把它當做一個爬蟲工具。

也是因為最近在梳理36氪文章一些標籤，打算看下別家和創投相關的網站有什麼標準可以參考，於是發現一家名叫：「烯牛數據」的網站，其提供的一套「行業體系」標籤很有參考價值，就說想把頁面上的數據抓下來，整合到我們自己的標籤庫中，如下圖紅字部分：

如果是規則展示的數據，還能用滑鼠選擇後複製粘貼，但這種嵌入頁面中的，還是要想些辦法。這時想起之前安裝過Web Scraper，就用下試試，還挺好用的，一下子提高了收集效率。也給大家安利下~

Web Scraper這個Chrome插件，我是一年前在三節課的公開課上看到的，號稱不用懂編程也能實現爬蟲抓取的黑科技，不過貌似三節課官網上找不到了，大家可以百度：「三節課爬蟲」，還能搜到，名字叫「人人都能學會的數據爬蟲課」，但好像還要交100塊錢。我是覺得這東西看看網上的文章也能學會，比如我這篇~

簡單來說，Web Scraper是個基於Chrome的網頁元素解析器，可以通過可視化點選操作，實現某個定製區域的數據/元素提取。同時它也提供定時自動提取功能，活用這個功能就可以當做一套簡單的爬蟲工具來用了。

這裡再順便解釋下網頁提取器抓取和真正代碼編寫爬蟲的區別，用網頁提取器自動提取頁面數據的過程，有點類似模擬人工點擊的機器人，它是先讓你定義好頁面上要抓哪個元素，以及要抓哪些頁面，然後讓機器去替人來操作；而如果你用Python寫爬蟲，更多是利用網頁請求指令先把整個網頁下載下來，再用代碼去解析HTML頁面元素，提取其中你想要的內容，再不斷循環。相比而言，用代碼會更靈活，但解析成本也會更高，如果是簡單的頁面內容提取，我也是建議用Web Scraper就夠了。

關於Web Scraper的具體安裝過程，以及完整功能的使用方法，我不會在今天的文章里展開說。第一是我只使用了我需要的部分，第二也是因為市面上講Web Scraper的教程很豐富，大家完全可以自行查找。

這裡只以一個實操過程，給大家簡單介紹下我是怎麼用的。

第一步創建Sitemap

打開Chrome瀏覽器，按F12調出開發者工具，Web Scraper在最後一個頁簽，點擊後，再選擇「Create Sitemap」菜單，點擊「Create Sitemap」選項。

首先輸入你想抓取的網站URL，以及你自定義的這條抓取任務的名字，比如我取的name是：xiniulevel，URL是：http://www.xiniudata.com/industry/level

第二步創建抓取節點

我想抓取的是一級標籤和二級標籤，所以先點進去剛才創建的Sitemap，再點擊「Add new selector」，進入抓取節點選擇器配置頁，在頁面上點擊「Select」按鈕，這時你會看到出現了一個浮層

這時當你滑鼠移入網頁時，會自動把某個你滑鼠懸停的位置綠色高亮。這時你可以先單擊一個你想選擇的區塊，會發現區塊變成了紅色，想把同一層級的區塊全選中，則可以繼續點擊相鄰的下一個區塊，這時工具會默認選中所有同級的區塊，如下圖：

我們會發現下方懸浮窗的文本輸入框自動填充了區塊的XPATH路徑，接著點擊「Done selecting！」結束選擇，懸浮框消失，選中的XPATH自動填充到下方Selector一行。另外務必選中「Multiple」，以聲明你要選多個區塊。最後點擊Save selector按鈕結束。

第三步獲取元素值

完成Selector的創建後，回到上一頁，你會發現多了一行Selector表格，接下來就可以直接點擊Action中的Data preview，查看所有想獲取的元素值。

上圖所示部分，是我已經添加了一級標籤和二級標籤兩個Selector的情況，點擊Data preview的彈窗內容其實就是我想要的，直接複製到EXCEL就行了，也不用什麼太複雜的自動化爬取處理。

以上就是對Web Scraper使用過程的簡單介紹。當然我的用法還不是完全高效，因為每次想獲取二級標籤時還要先手動切換一級標籤，再執行抓取指令，應該還有更好的做法，不過對我而言已經足夠了。這篇文章主要是想和你普及下這款工具，不算教程，更多功能還是要根據你的需求自行摸索~

怎麼樣，是否有幫到你？期待你的留言與我分享~

科技分類資訊推薦