深挖網(wǎng)絡(luò)爬蟲技術(shù)及Crawl4J應(yīng)用
配置介紹:
config.setMaxDepthOfCrawling(int maxDepthOfCrawling):抓取深度限制,默認抓取深度不受限制(設(shè)定值為-1也不受限制)。如種子頁面為A,A鏈接到B,B鏈接到C,C鏈接到D。種子頁面A的深度為0,B的深度為1,以此類推。如果設(shè)定值為2,就不會抓取到D鏈接的內(nèi)容。
config.setPolitenessDelay(int politenessDelay):每次請求前等待毫秒數(shù),默認不等待?梢苑乐棺ト≌埱筮^快而被服務(wù)器端認為是非法請求而終止訪問的情況。
可以通過如下代碼設(shè)定代理設(shè)置:
crawlConfig.setProxyHost("proxyserver.example.com");
crawlConfig.setProxyPort(8080);
如果代理需要認證:
crawlConfig.setProxyUsername(username);
crawlConfig.getProxyPassword(password);
解析器
代碼解釋:
shouldVisit():用來實現(xiàn)滿足抓取數(shù)據(jù)的條件,如滿足抓取條件則返回true,返回false代表不滿足條件則放棄本次抓取。
visit(): 抓取返回的響應(yīng)結(jié)果,此示例中通過Jsoup來解析響應(yīng)內(nèi)容。Jsoup的代碼解析語法遵循JavaScript規(guī)范要求,對熟悉JavaScript的開發(fā)者使用起來比較方便易懂。
標(biāo)簽定位:HTML標(biāo)簽定位可以通過瀏覽器控制臺的方式進行查看。
資源庫:
本示例中通過Java標(biāo)準(zhǔn)輸出流來替代資源庫的實現(xiàn)部分,未單獨實現(xiàn)資源庫的代碼。從輸出結(jié)果可以看出項目設(shè)定10個線程同時抓取滿足條件的第一級深度的博客文章共計21篇。
規(guī)避反爬蟲技術(shù)
在實際項目抓取的過程中應(yīng)該滿足君子協(xié)議即不違背robots.txt定義的抓取協(xié)議。同時爬蟲項目的開發(fā)中可能會遇被抓取的WEB網(wǎng)站對訪問頻繁程度的限制,異步Ajax動態(tài)渲染數(shù)據(jù)等?梢詤⒖既缦路椒ń鉀Q:
通過設(shè)定動態(tài)IP代理的方式,每抓取幾次之后動態(tài)更換IP地址,讓服務(wù)器端判斷每次IP來源不同;
通過設(shè)定抓取前休眠時間來降低抓取頻度;
分析動態(tài)Ajax請求,結(jié)合Jsoup進行單獨的URL請求,獲取異步請求數(shù)據(jù)響應(yīng)內(nèi)容;
通過Selenium等相關(guān)自動化測試工具,模擬真實的瀏覽器請求獲取Ajax異步請求渲染之后的數(shù)據(jù);
通過設(shè)定Header中的值,來規(guī)避相關(guān)請求參數(shù)的限制。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
8月5日立即報名>> 【在線會議】CAE優(yōu)化設(shè)計:醫(yī)療器械設(shè)計的應(yīng)用案例與方案解析
-
8月14日立即報名>> 【在線研討會】解析安森美(onsemi)高精度與超低功耗CGM系統(tǒng)解決方案
-
精彩回顧立即查看>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍皮書》
-
精彩回顧立即查看>> 7月30日- 8月1日 2025全數(shù)會工業(yè)芯片與傳感儀表展
-
精彩回顧立即查看>> 全數(shù)會2025(第六屆)機器人及智能工廠展
-
精彩回顧立即查看>> OFweek 2025 具身機器人動力電池技術(shù)應(yīng)用大會
推薦專題
- 1 AI產(chǎn)業(yè)的新高度!英偉達成為全球首家市值破4萬億美元的公司
- 2 傳魏建軍與賈躍亭合作,長城汽車出海美國
- 3 一文讀懂:到底什么是 “具身智能” ?
- 4 黃仁勛:與雷軍長期合作,共探AI智駕
- 5 具身智能泡沫爭議下,華映資本尋找「穿越周期者」
- 6 中國平安們欲靠AI守“陣地”
- 7 官宣:智元機器人借殼上市,A股人形機器人第一股!
- 8 華為讓渡“三界”銷售主導(dǎo)權(quán),智界高管:終于能全力奔跑了
- 9 借仿生手實現(xiàn)突圍,國產(chǎn)靈巧手破局“不可能三角”
- 10 DeepSeek R2加持,中國AI與芯片產(chǎn)業(yè)迎來新一輪協(xié)同進化