国产欧美成人不卡视频,嫩草视频日韩在线观看网站

一篇文章教會你利用Python網絡爬蟲獲取分類圖片

2020-07-14 16:56

Python進階學習交流

關注

【四、涉及的庫和網站】

1、網址如下：

https：／／www．doutula．com／photo／list／？page＝｛｝

2、涉及的庫：requests、lxml、fake＿useragent、time、os

3、軟件：PyCharm

【五、項目實施】

1、我們定義一個class類繼承object，然后定義init方法繼承self，再定義一個主函數main繼承self。導入需要的庫和網址，創(chuàng)建保存文件夾。import requests， osfrom lxml import etreefrom fake＿useragent import UserAgentimport timeclass bnotiank（object）： def ＿＿init＿＿（self）： os．mkdir（＂圖片＂）＃在創(chuàng)建文件夾記住只有第一次運行加上，如果多次運行請注釋掉本行。 def main（self）： passif ＿＿name＿＿＝＝＇＿＿main＿＿＇： Siper＝bnotiank（） Siper．main（）

2、隨機UserAgent ，構造請求頭，防止反爬。 ua ＝ UserAgent（verify＿ssl＝False） for i in range（1， 50）： self．headers ＝｛＇User－Agent＇： ua．random ｝

3、發(fā)送請求，獲取響應，頁面回調，方便下次請求。＇＇＇發(fā)送請求獲取響應＇＇＇ def get＿page（self， url）： res ＝ requests．get（url＝url， headers＝self．headers） html ＝ res．content．decode（＂utf－8＂） return html

4、定義parse＿page函數，獲取二級頁面地址，for遍歷獲取需要的字段。

def parse＿page（self， html）： parse＿html ＝ etree．HTML（html） image＿src＿list ＝ parse＿html．xpath（＇／／p／a／＠href＇）＃ print（image＿src＿list）

5、對二級頁面發(fā)生請求，xpath解析數據，獲取大圖片鏈接。

reo ＝ parse＿html1．xpath（＇／／div／／div［＠class＝＂content＂］＇）＃父結點 for j in reo： d ＝ j．xpath（＇．／／article［＠class＝＂article－content＂］／／p／img／＠src＇）［0］ text ＝ parse＿html1．xpath（＇／／h1［＠class ＝＂article－title＂］／／a／text（）＇）［0］．strip（）

6、請求圖片地址，寫入文檔。

html2 ＝ requests．get（url＝d， headers＝self．headers）．content dirname ＝＂．／d／＂＋ text ＋＂．jpg＂＃定義圖命名 with open（dirname，＇wb＇） as f： f．write（html2） print（＂％s 【下載成功�。。。　浚� ％ text）

7、調用方法，實現功能。 url ＝ self．url．format（page） print（url） html ＝ self．get＿page（url） self．parse＿page（html）

8、設置延時。（防止ip被封）。

time．sleep（1）＂＂＂時間延時＂＂＂

【六、效果展示】

1、點擊綠色小三角運行輸入起始頁，終止頁。