推荐一个网页抓取小工具Web Scraper

分类：科技

浏览数：1247

2019-11-14

想分享的这款工具是个Chrome下的插件，叫：Web Scraper，是一款可以从网页中提取数据的Chrome网页数据提取插件。在某种意义上，你也可以把它当做一个爬虫工具。

也是因为最近在梳理36氪文章一些标签，打算看下别家和创投相关的网站有什么标准可以参考，于是发现一家名叫：“烯牛数据”的网站，其提供的一套“行业体系”标签很有参考价值，就说想把页面上的数据抓下来，整合到我们自己的标签库中，如下图红字部分：

如果是规则展示的数据，还能用鼠标选择后复制粘贴，但这种嵌入页面中的，还是要想些办法。这时想起之前安装过Web Scraper，就用下试试，还挺好用的，一下子提高了收集效率。也给大家安利下~

Web Scraper这个Chrome插件，我是一年前在三节课的公开课上看到的，号称不用懂编程也能实现爬虫抓取的黑科技，不过貌似三节课官网上找不到了，大家可以百度：“三节课爬虫”，还能搜到，名字叫“人人都能学会的数据爬虫课”，但好像还要交100块钱。我是觉得这东西看看网上的文章也能学会，比如我这篇~

简单来说，Web Scraper是个基于Chrome的网页元素解析器，可以通过可视化点选操作，实现某个定制区域的数据/元素提取。同时它也提供定时自动提取功能，活用这个功能就可以当做一套简单的爬虫工具来用了。

这里再顺便解释下网页提取器抓取和真正代码编写爬虫的区别，用网页提取器自动提取页面数据的过程，有点类似模拟人工点击的机器人，它是先让你定义好页面上要抓哪个元素，以及要抓哪些页面，然后让机器去替人来操作；而如果你用Python写爬虫，更多是利用网页请求指令先把整个网页下载下来，再用代码去解析HTML页面元素，提取其中你想要的内容，再不断循环。相比而言，用代码会更灵活，但解析成本也会更高，如果是简单的页面内容提取，我也是建议用Web Scraper就够了。

关于Web Scraper的具体安装过程，以及完整功能的使用方法，我不会在今天的文章里展开说。第一是我只使用了我需要的部分，第二也是因为市面上讲Web Scraper的教程很丰富，大家完全可以自行查找。

这里只以一个实操过程，给大家简单介绍下我是怎么用的。

第一步创建Sitemap

打开Chrome浏览器，按F12调出开发者工具，Web Scraper在最后一个页签，点击后，再选择“Create Sitemap”菜单，点击“Create Sitemap”选项。

首先输入你想抓取的网站URL，以及你自定义的这条抓取任务的名字，比如我取的name是：xiniulevel，URL是：http://www.xiniudata.com/industry/level

第二步创建抓取节点

我想抓取的是一级标签和二级标签，所以先点进去刚才创建的Sitemap，再点击“Add new selector”，进入抓取节点选择器配置页，在页面上点击“Select”按钮，这时你会看到出现了一个浮层

这时当你鼠标移入网页时，会自动把某个你鼠标悬停的位置绿色高亮。这时你可以先单击一个你想选择的区块，会发现区块变成了红色，想把同一层级的区块全选中，则可以继续点击相邻的下一个区块，这时工具会默认选中所有同级的区块，如下图：

我们会发现下方悬浮窗的文本输入框自动填充了区块的XPATH路径，接着点击“Done selecting！”结束选择，悬浮框消失，选中的XPATH自动填充到下方Selector一行。另外务必选中“Multiple”，以声明你要选多个区块。最后点击Save selector按钮结束。

第三步获取元素值

完成Selector的创建后，回到上一页，你会发现多了一行Selector表格，接下来就可以直接点击Action中的Data preview，查看所有想获取的元素值。

上图所示部分，是我已经添加了一级标签和二级标签两个Selector的情况，点击Data preview的弹窗内容其实就是我想要的，直接复制到EXCEL就行了，也不用什么太复杂的自动化爬取处理。

以上就是对Web Scraper使用过程的简单介绍。当然我的用法还不是完全高效，因为每次想获取二级标签时还要先手动切换一级标签，再执行抓取指令，应该还有更好的做法，不过对我而言已经足够了。这篇文章主要是想和你普及下这款工具，不算教程，更多功能还是要根据你的需求自行摸索~

怎么样，是否有帮到你？期待你的留言与我分享~

科技分类资讯推荐