推荐一个网页抓取小工具Web Scraper

2019年11月14日05:05:06 科技 1247

推荐一个网页抓取小工具Web Scraper - 天天要闻

想分享的这款工具是个Chrome下的插件,叫:Web Scraper,是一款可以从网页中提取数据的Chrome网页数据提取插件。在某种意义上,你也可以把它当做一个爬虫工具

也是因为最近在梳理36氪文章一些标签,打算看下别家和创投相关的网站有什么标准可以参考,于是发现一家名叫:“烯牛数据”的网站,其提供的一套“行业体系”标签很有参考价值,就说想把页面上的数据抓下来,整合到我们自己的标签库中,如下图红字部分:

推荐一个网页抓取小工具Web Scraper - 天天要闻

如果是规则展示的数据,还能用鼠标选择后复制粘贴,但这种嵌入页面中的,还是要想些办法。这时想起之前安装过Web Scraper,就用下试试,还挺好用的,一下子提高了收集效率。也给大家安利下~

Web Scraper这个Chrome插件,我是一年前在三节课的公开课上看到的,号称不用懂编程也能实现爬虫抓取的黑科技,不过貌似三节课官网上找不到了,大家可以百度:“三节课 爬虫”,还能搜到,名字叫“人人都能学会的数据爬虫课”,但好像还要交100块钱。我是觉得这东西看看网上的文章也能学会,比如我这篇~

简单来说,Web Scraper是个基于Chrome的网页元素解析器,可以通过可视化点选操作,实现某个定制区域的数据/元素提取。同时它也提供定时自动提取功能,活用这个功能就可以当做一套简单的爬虫工具来用了。

这里再顺便解释下网页提取器抓取和真正代码编写爬虫的区别,用网页提取器自动提取页面数据的过程,有点类似模拟人工点击的机器人,它是先让你定义好页面上要抓哪个元素,以及要抓哪些页面,然后让机器去替人来操作;而如果你用Python写爬虫,更多是利用网页请求指令先把整个网页下载下来,再用代码去解析HTML页面元素,提取其中你想要的内容,再不断循环。相比而言,用代码会更灵活,但解析成本也会更高,如果是简单的页面内容提取,我也是建议用Web Scraper就够了。

关于Web Scraper的具体安装过程,以及完整功能的使用方法,我不会在今天的文章里展开说。第一是我只使用了我需要的部分,第二也是因为市面上讲Web Scraper的教程很丰富,大家完全可以自行查找。

这里只以一个实操过程,给大家简单介绍下我是怎么用的。

第一步 创建Sitemap

打开Chrome浏览器,按F12调出开发者工具,Web Scraper在最后一个页签,点击后,再选择“Create Sitemap”菜单,点击“Create Sitemap”选项。

推荐一个网页抓取小工具Web Scraper - 天天要闻

首先输入你想抓取的网站URL,以及你自定义的这条抓取任务的名字,比如我取的name是:xiniulevel,URL是:http://www.xiniudata.com/industry/level

第二步 创建抓取节点

我想抓取的是一级标签和二级标签,所以先点进去刚才创建的Sitemap,再点击“Add new selector”,进入抓取节点选择器配置页,在页面上点击“Select”按钮,这时你会看到出现了一个浮层

推荐一个网页抓取小工具Web Scraper - 天天要闻

这时当你鼠标移入网页时,会自动把某个你鼠标悬停的位置绿色高亮。这时你可以先单击一个你想选择的区块,会发现区块变成了红色,想把同一层级的区块全选中,则可以继续点击相邻的下一个区块,这时工具会默认选中所有同级的区块,如下图:

推荐一个网页抓取小工具Web Scraper - 天天要闻

我们会发现下方悬浮窗的文本输入框自动填充了区块的XPATH路径,接着点击“Done selecting!”结束选择,悬浮框消失,选中的XPATH自动填充到下方Selector一行。另外务必选中“Multiple”,以声明你要选多个区块。最后点击Save selector按钮结束。

推荐一个网页抓取小工具Web Scraper - 天天要闻

第三步 获取元素值

完成Selector的创建后,回到上一页,你会发现多了一行Selector表格,接下来就可以直接点击Action中的Data preview,查看所有想获取的元素值。

推荐一个网页抓取小工具Web Scraper - 天天要闻

推荐一个网页抓取小工具Web Scraper - 天天要闻

上图所示部分,是我已经添加了一级标签和二级标签两个Selector的情况,点击Data preview的弹窗内容其实就是我想要的,直接复制到EXCEL就行了,也不用什么太复杂的自动化爬取处理。

以上就是对Web Scraper使用过程的简单介绍。当然我的用法还不是完全高效,因为每次想获取二级标签时还要先手动切换一级标签,再执行抓取指令,应该还有更好的做法,不过对我而言已经足够了。这篇文章主要是想和你普及下这款工具,不算教程,更多功能还是要根据你的需求自行摸索~

怎么样,是否有帮到你?期待你的留言与我分享~

科技分类资讯推荐

苹果发布会官宣!最强iPad Pro蓄势待发 - 天天要闻

苹果发布会官宣!最强iPad Pro蓄势待发

快科技4月23日消息,今日晚间,苹果官方宣布将于北京时间5月7日晚10点举行Apple特别活动。这次苹果特别活动的海报中出现了一支手写笔,表明苹果将在5月7日当天发布新一代Apple Pencil和iPad系列新品。据悉,苹果今年的春季发布会将推出iPad Air、iPad Pro、妙控键盘和手写笔等新品。其中iPad Air将会带来12.9英寸、10.9英
今天公布的这新机,彻底杀疯了 - 天天要闻

今天公布的这新机,彻底杀疯了

嚯,很突然,魅族居然又要发新机了。 去年 11 月发布魅族 21 标准版,今年 2 月发布魅族 21 Pro 版。 可能有人估摸着,莫非是超大杯要来了? nonono,....
广州也有!记者调查“共享员工”热潮背后:是变相外包吗? - 天天要闻

广州也有!记者调查“共享员工”热潮背后:是变相外包吗?

今年春招市场,“共享员工”一词火了。据媒体报道,这些“共享员工”一般不和企业签订固定合同,而是与企业就某一项目进行短期合作。因有助于节省人力成本、解决用工难等问题,“共享程序员”“共享设计师”等类型的“共享员工”成为企业招聘的热门选择。然而,也有员工认为,“共享员工”就是变相的“劳务派遣”“外包”,...
使用体验再升级,华为擎云 S520 Gen2能否助力中小企业办公效能进阶跃升? - 天天要闻

使用体验再升级,华为擎云 S520 Gen2能否助力中小企业办公效能进阶跃升?

中小企业在国民经济发展的各个环节都发挥着重要作用。受限于规模,中小企业员工通常都是一人身兼多职。在无纸化办公已成主流的当下,这意味着中小企业员工需要有一台足够强劲的笔记本电脑,协助自己在重度办公与混合办公场景中迅速完成工作。鉴于工作条件的特殊性,这里说到的“强劲”,可不单是性能方面。它还需要具备良好...
大江论坛第26期  人工智能时代新范式变革初探(三):  智能医学科技前沿及未来 - 天天要闻

大江论坛第26期 人工智能时代新范式变革初探(三): 智能医学科技前沿及未来

从ChatGPT到Sora,大模型和生成式人工智能日益走进大众视野,成为新质生产力的重要组成部分。人工智能技术,也必将引发科学范式的一系列变革,对我们的生产生活产生重大影响。人工智能将改变生物医学研究范式,并为提升医疗诊断水平、提高医患沟通效率提供新的思路和工具,带来医疗卫生公共服务创新的新机遇。华中科技大学...
当贝D6X Pro评测:开启影音娱乐新纪元,让投影仪不再“吃灰” - 天天要闻

当贝D6X Pro评测:开启影音娱乐新纪元,让投影仪不再“吃灰”

在智能家居产品日益丰富的今天,投影仪以其大屏幕的观影体验成为了越来越多消费者的首选。当贝,作为投影行业发展迅速的黑马品牌,一直致力于打造高品质、高性能的投影仪产品。在当前投影市场日益竞争激烈的背景下,当贝凭借其卓越的技术实力和不断创新的理念,成功地为用户带来了全新的观影体验。最近,当贝又推出了新品,...
ThinkPad T14p AI受追捧!Ultra 9/Arc显卡版全网售罄 - 天天要闻

ThinkPad T14p AI受追捧!Ultra 9/Arc显卡版全网售罄

【CNMO科技消息】4月23日,ThinkPad T14p AI高性能专业工程师本全网开售,首发到手价7499元起。笔记本开售后受到了诸多消费者追捧。现在,ThinkPad官方宣布,ThinkPad T14p AI Ultra 9|32G|1TB|Arc显卡|3K配置已经全网售罄,“生产线目前正在全速运转中”。  AI是ThinkPad T14p AI的一大