python爬虫实例教程之豆瓣电影排行榜--python爬虫requests库

2021年09月05日21:59:07 科技 1767

前几节课我们通过requests库进行了简单的网页采集和百度翻译的操作,这一节课我们继续进行案例的讲解--python爬虫实例教程之豆瓣电影排行榜,这次的案例与上节课案例相似,同样会涉及到JSON模块,异步加载以及局部加载方式等内容,接下来我们一一讲解操作方法。


1.主要获取的内容


我们主要通过豆瓣电影排行榜(https://movie.douban.com/typerank?type_name=%E5%96%9C%E5%89%A7&type=24&interval_id=100:90&action=

这个网站获取到影片的相关信息,如链接、片名、评分等内容(如下)


python爬虫实例教程之豆瓣电影排行榜--python爬虫requests库 - 天天要闻


2.分析解题思路


首先我们打开我们要爬取的网址,我们会发现通过拖动鼠标滑块,电影是不断被加载出来的,并且网址不发生变化,因此我们是不是能立刻联想到上节课做的案例百度搜索有异曲同工之处--ajax异步,因此我们获取网址信息、headers、关键词等信息,不能再通过all查看,而是选择xpath查看(如下图)


python爬虫实例教程之豆瓣电影排行榜--python爬虫requests库 - 天天要闻


3.书写代码


第一步,导入requests模块


python爬虫实例教程之豆瓣电影排行榜--python爬虫requests库 - 天天要闻


第二步,获取url、参数、headers等信息


上面我们已经分析了,该网页采用ajax异步,因此我们通过xpath获取url、参数、headers信息(如下)


python爬虫实例教程之豆瓣电影排行榜--python爬虫requests库 - 天天要闻

python爬虫实例教程之豆瓣电影排行榜--python爬虫requests库 - 天天要闻


我们从上图中也了解到该网页的请求类型为get,响应类型方式为JSON,因此代码如下:


python爬虫实例教程之豆瓣电影排行榜--python爬虫requests库 - 天天要闻


需要注意的是:


(1)网址中去掉了“limit=1”因为在参数中已经包含了“limit”


(2)参数中“limit”对应的值改为了100,原因是“limit”代表着电影的篇数,我们不只想获取1部电影的信息,我们想获取100部,当然数字可根据需要更改


了解更多

科技分类资讯推荐

长安与东风重组新进展:朱华荣称不会改变长安既定战略 - 天天要闻

长安与东风重组新进展:朱华荣称不会改变长安既定战略

2月9日,长安汽车和东风集团股份(00489.HK)同步发布了控股股东“正在与其他国资央企集团筹划重组事项”的信息。长安汽车的控股股东是兵装集团,而东风集团股份的控股股东是东风公司。随即,长安汽车和东风集团这两家汽车央企将合并重组,成为业内关注的焦点。
公安部出手了!年龄限制放宽10年、送考下乡,2025年考驾照不难了 - 天天要闻

公安部出手了!年龄限制放宽10年、送考下乡,2025年考驾照不难了

电动车加强管理以后,要求机动车类型的车辆需要持证上路,但是老年人考驾照却受阻,一方面有年龄的限制,另一方面偏远山区考驾照不方便,所以在2025年公安部出手了,年龄限制放宽10年,同时推出送考下乡服务,还进一步的降低考驾照的费用,2025年起考摩托车驾照不难了。
从“星灵安全守护体系”到昊铂HL,看懂广汽科技日 - 天天要闻

从“星灵安全守护体系”到昊铂HL,看懂广汽科技日

发布会以技术切入,并全程围绕安全展开。广汽集团董事长、总经理冯兴亚率先登场,宣布2025年四季度将正式上市支持L3级智能驾驶的车型,他同时强调面向自动驾驶时代对智能驾驶技术、整车安全架构以及突发风险处理能力的要求更高。如何才能满足更高的要求?冯兴亚提到了“广汽
关税大棒下,最受伤的车企出现了 - 天天要闻

关税大棒下,最受伤的车企出现了

特朗普的关税大棒刚挥出,尚未吓退“外敌”,却先刺痛了自己。近日,拥有玛莎拉蒂、Jeep等14个品牌的全球第四大车企斯泰兰蒂斯突然宣布裁撤900名美国工人,关闭加拿大和墨西哥两家工厂,北美生产线陷入瘫痪。几乎同一时间,捷豹路虎宣布暂停对美出口一个月,奥迪更是直接