python爬蟲實例教程之豆瓣電影排行榜--python爬蟲requests庫

2021年09月05日21:59:07 科技 1767

前幾節課我們通過requests庫進行了簡單的網頁採集和百度翻譯的操作,這一節課我們繼續進行案例的講解--python爬蟲實例教程之豆瓣電影排行榜,這次的案例與上節課案例相似,同樣會涉及到JSON模塊,異步加載以及局部加載方式等內容,接下來我們一一講解操作方法。


1.主要獲取的內容


我們主要通過豆瓣電影排行榜(https://movie.douban.com/typerank?type_name=%E5%96%9C%E5%89%A7&type=24&interval_id=100:90&action=

這個網站獲取到影片的相關信息,如鏈接、片名、評分等內容(如下)


python爬蟲實例教程之豆瓣電影排行榜--python爬蟲requests庫 - 天天要聞


2.分析解題思路


首先我們打開我們要爬取的網址,我們會發現通過拖動鼠標滑塊,電影是不斷被加載出來的,並且網址不發生變化,因此我們是不是能立刻聯想到上節課做的案例百度搜索有異曲同工之處--ajax異步,因此我們獲取網址信息、headers、關鍵詞等信息,不能再通過all查看,而是選擇xpath查看(如下圖)


python爬蟲實例教程之豆瓣電影排行榜--python爬蟲requests庫 - 天天要聞


3.書寫代碼


第一步,導入requests模塊


python爬蟲實例教程之豆瓣電影排行榜--python爬蟲requests庫 - 天天要聞


第二步,獲取url、參數、headers等信息


上面我們已經分析了,該網頁採用ajax異步,因此我們通過xpath獲取url、參數、headers信息(如下)


python爬蟲實例教程之豆瓣電影排行榜--python爬蟲requests庫 - 天天要聞

python爬蟲實例教程之豆瓣電影排行榜--python爬蟲requests庫 - 天天要聞


我們從上圖中也了解到該網頁的請求類型為get,響應類型方式為JSON,因此代碼如下:


python爬蟲實例教程之豆瓣電影排行榜--python爬蟲requests庫 - 天天要聞


需要注意的是:


(1)網址中去掉了“limit=1”因為在參數中已經包含了“limit”


(2)參數中“limit”對應的值改為了100,原因是“limit”代表着電影的篇數,我們不只想獲取1部電影的信息,我們想獲取100部,當然數字可根據需要更改


了解更多

科技分類資訊推薦

長安與東風重組新進展:朱華榮稱不會改變長安既定戰略 - 天天要聞

長安與東風重組新進展:朱華榮稱不會改變長安既定戰略

2月9日,長安汽車和東風集團股份(00489.HK)同步發布了控股股東“正在與其他國資央企集團籌劃重組事項”的信息。長安汽車的控股股東是兵裝集團,而東風集團股份的控股股東是東風公司。隨即,長安汽車和東風集團這兩家汽車央企將合併重組,成為業內關注的焦點。
公安部出手了!年齡限制放寬10年、送考下鄉,2025年考駕照不難了 - 天天要聞

公安部出手了!年齡限制放寬10年、送考下鄉,2025年考駕照不難了

電動車加強管理以後,要求機動車類型的車輛需要持證上路,但是老年人考駕照卻受阻,一方面有年齡的限制,另一方面偏遠山區考駕照不方便,所以在2025年公安部出手了,年齡限制放寬10年,同時推出送考下鄉服務,還進一步的降低考駕照的費用,2025年起考摩托車駕照不難了。
從“星靈安全守護體系”到昊鉑HL,看懂廣汽科技日 - 天天要聞

從“星靈安全守護體系”到昊鉑HL,看懂廣汽科技日

發布會以技術切入,並全程圍繞安全展開。廣汽集團董事長、總經理馮興亞率先登場,宣布2025年四季度將正式上市支持L3級智能駕駛的車型,他同時強調面向自動駕駛時代對智能駕駛技術、整車安全架構以及突發風險處理能力的要求更高。如何才能滿足更高的要求?馮興亞提到了“廣汽
關稅大棒下,最受傷的車企出現了 - 天天要聞

關稅大棒下,最受傷的車企出現了

特朗普的關稅大棒剛揮出,尚未嚇退“外敵”,卻先刺痛了自己。近日,擁有瑪莎拉蒂、Jeep等14個品牌的全球第四大車企斯泰蘭蒂斯突然宣布裁撤900名美國工人,關閉加拿大和墨西哥兩家工廠,北美生產線陷入癱瘓。幾乎同一時間,捷豹路虎宣布暫停對美出口一個月,奧迪更是直接