推荐一个网页抓取小工具Web Scraper

2019年11月14日05:05:06 科技 1247

推荐一个网页抓取小工具Web Scraper - 天天要闻

想分享的这款工具是个Chrome下的插件,叫:Web Scraper,是一款可以从网页中提取数据的Chrome网页数据提取插件。在某种意义上,你也可以把它当做一个爬虫工具

也是因为最近在梳理36氪文章一些标签,打算看下别家和创投相关的网站有什么标准可以参考,于是发现一家名叫:“烯牛数据”的网站,其提供的一套“行业体系”标签很有参考价值,就说想把页面上的数据抓下来,整合到我们自己的标签库中,如下图红字部分:

推荐一个网页抓取小工具Web Scraper - 天天要闻

如果是规则展示的数据,还能用鼠标选择后复制粘贴,但这种嵌入页面中的,还是要想些办法。这时想起之前安装过Web Scraper,就用下试试,还挺好用的,一下子提高了收集效率。也给大家安利下~

Web Scraper这个Chrome插件,我是一年前在三节课的公开课上看到的,号称不用懂编程也能实现爬虫抓取的黑科技,不过貌似三节课官网上找不到了,大家可以百度:“三节课 爬虫”,还能搜到,名字叫“人人都能学会的数据爬虫课”,但好像还要交100块钱。我是觉得这东西看看网上的文章也能学会,比如我这篇~

简单来说,Web Scraper是个基于Chrome的网页元素解析器,可以通过可视化点选操作,实现某个定制区域的数据/元素提取。同时它也提供定时自动提取功能,活用这个功能就可以当做一套简单的爬虫工具来用了。

这里再顺便解释下网页提取器抓取和真正代码编写爬虫的区别,用网页提取器自动提取页面数据的过程,有点类似模拟人工点击的机器人,它是先让你定义好页面上要抓哪个元素,以及要抓哪些页面,然后让机器去替人来操作;而如果你用Python写爬虫,更多是利用网页请求指令先把整个网页下载下来,再用代码去解析HTML页面元素,提取其中你想要的内容,再不断循环。相比而言,用代码会更灵活,但解析成本也会更高,如果是简单的页面内容提取,我也是建议用Web Scraper就够了。

关于Web Scraper的具体安装过程,以及完整功能的使用方法,我不会在今天的文章里展开说。第一是我只使用了我需要的部分,第二也是因为市面上讲Web Scraper的教程很丰富,大家完全可以自行查找。

这里只以一个实操过程,给大家简单介绍下我是怎么用的。

第一步 创建Sitemap

打开Chrome浏览器,按F12调出开发者工具,Web Scraper在最后一个页签,点击后,再选择“Create Sitemap”菜单,点击“Create Sitemap”选项。

推荐一个网页抓取小工具Web Scraper - 天天要闻

首先输入你想抓取的网站URL,以及你自定义的这条抓取任务的名字,比如我取的name是:xiniulevel,URL是:http://www.xiniudata.com/industry/level

第二步 创建抓取节点

我想抓取的是一级标签和二级标签,所以先点进去刚才创建的Sitemap,再点击“Add new selector”,进入抓取节点选择器配置页,在页面上点击“Select”按钮,这时你会看到出现了一个浮层

推荐一个网页抓取小工具Web Scraper - 天天要闻

这时当你鼠标移入网页时,会自动把某个你鼠标悬停的位置绿色高亮。这时你可以先单击一个你想选择的区块,会发现区块变成了红色,想把同一层级的区块全选中,则可以继续点击相邻的下一个区块,这时工具会默认选中所有同级的区块,如下图:

推荐一个网页抓取小工具Web Scraper - 天天要闻

我们会发现下方悬浮窗的文本输入框自动填充了区块的XPATH路径,接着点击“Done selecting!”结束选择,悬浮框消失,选中的XPATH自动填充到下方Selector一行。另外务必选中“Multiple”,以声明你要选多个区块。最后点击Save selector按钮结束。

推荐一个网页抓取小工具Web Scraper - 天天要闻

第三步 获取元素值

完成Selector的创建后,回到上一页,你会发现多了一行Selector表格,接下来就可以直接点击Action中的Data preview,查看所有想获取的元素值。

推荐一个网页抓取小工具Web Scraper - 天天要闻

推荐一个网页抓取小工具Web Scraper - 天天要闻

上图所示部分,是我已经添加了一级标签和二级标签两个Selector的情况,点击Data preview的弹窗内容其实就是我想要的,直接复制到EXCEL就行了,也不用什么太复杂的自动化爬取处理。

以上就是对Web Scraper使用过程的简单介绍。当然我的用法还不是完全高效,因为每次想获取二级标签时还要先手动切换一级标签,再执行抓取指令,应该还有更好的做法,不过对我而言已经足够了。这篇文章主要是想和你普及下这款工具,不算教程,更多功能还是要根据你的需求自行摸索~

怎么样,是否有帮到你?期待你的留言与我分享~

科技分类资讯推荐

全球媒体聚焦丨79%全球专利+80%市场份额!外媒从一场救援看中国无人机产业实力 - 天天要闻

全球媒体聚焦丨79%全球专利+80%市场份额!外媒从一场救援看中国无人机产业实力

近日,一段中国无人机在洪水中成功营救被困人员的短视频在海外社交平台广泛传播,多家国际媒体也竞相报道,并深入探讨中国无人机产业技术发展与创新应用。 《纽约时报》网站截图 据了解,这段短视频中的救援发生在广西柳州三江侗族自治县一村庄。受上游来水影响,这个村子里一些处于低洼地带的房屋被淹。由于水流上涨快,一...
博士天团攻坚激光芯片,拿到3个亿融资 - 天天要闻

博士天团攻坚激光芯片,拿到3个亿融资

记者|鄢子为编辑|陈晓平7月1日,北京飓芯科技对外官宣,完成3亿元B轮融资。飓芯成立于2017年7月,核心团队由多名经验丰富的博士组成,主攻氮化镓激光芯片产业化,实现关键核心器件的自主可控。本轮融资,飓芯获得国家基金、半导体产业方和一线投资机构的认可。3亿融资由深创投制造业转型升级新材料基金(国家制造业转型升...
臻宝科技科创板IPO获受理 系半导体零部件制造商 大基金二期等参投 - 天天要闻

臻宝科技科创板IPO获受理 系半导体零部件制造商 大基金二期等参投

《科创板日报》7月2日讯(记者 黄修眉 实习记者 戴嘉怡) 重庆臻宝科技股份有限公司(下称“臻宝科技”)科创板IPO申请近日获上交所受理,辅导机构为中信证券。臻宝科技是国内少数实现集成电路先进制程设备和高世代、高电压显示面板制造设备非金属零部件多品类供应、规模化量产的企业之一。此次IPO,臻宝科技拟募资13.98亿...
BW2025即将开展,技嘉AORUS雕妹约你3H|3A08 雕宅见 - 天天要闻

BW2025即将开展,技嘉AORUS雕妹约你3H|3A08 雕宅见

史上规模空前的BilibiliWorld2025将于2025年7月11日-13日在上海国家会展中心开展!知名电竞硬件品牌技嘉AORUS已确认参展,为玩家打造游戏盛宴。现场不仅能体验新款硬核电竞装备、畅玩热门游戏大作,参与激烈的1V1对战PK,更有甜辣萌趣的雕妹喊你3H|3A08等你来!多重互动火力全开,带你玩转整个BW,开启今夏最燃电竞狂欢。...
35项服务可跨境办理,“澳政易”自助服务机上线珠海市民服务中心 - 天天要闻

35项服务可跨境办理,“澳政易”自助服务机上线珠海市民服务中心

“十几分钟就办完了,现场的协助人员指导我操作,太方便了!”7月1日上午,澳门居民梁女士来到珠海市民服务中心1号楼3楼的综合服务厅办理业务,在工作人员的帮助下,她在港澳跨境服务自助办理区的“澳政易”自助服务机上很快就办完了身份证明业务。6月30日,广州、珠海、中山、江门四个大湾区城市的政务服务中心正式启用了...
65亿美元芯片收购案,遭美国二次调查 - 天天要闻

65亿美元芯片收购案,遭美国二次调查

本文由半导体产业纵横(ID:ICVIEWS)综合 美国FTC对软银收购Ampere展开深度调查。 据知情人士透露,美国联邦贸易委员会就软银拟收购 Arm 服务器处理器厂商Ampe....
DRAM市场,将创新高 - 天天要闻

DRAM市场,将创新高

本文由半导体产业纵横(ID:ICVIEWS)综合 传统通用型DRAM和服务器高价值DRAM量价齐升双重驱动,2025年DRAM市场有望创新高。 根据CFM最新报告显示,2025年....
国产晶圆代工,市场巨变! - 天天要闻

国产晶圆代工,市场巨变!

未来十年,将是晶圆代工业的关键转折期。 这一判断,在近期一组数据中得到了清晰印证。根据 Yole Group 的最新报告,中国大陆有望在 2030 年超越中国台湾,跃居全球最大半导体晶圆代....