深挖網(wǎng)絡(luò)爬蟲技術(shù)及Crawl4J應(yīng)用
配置介紹:
config.setMaxDepthOfCrawling(int maxDepthOfCrawling):抓取深度限制,默認(rèn)抓取深度不受限制(設(shè)定值為-1也不受限制)。如種子頁面為A,A鏈接到B,B鏈接到C,C鏈接到D。種子頁面A的深度為0,B的深度為1,以此類推。如果設(shè)定值為2,就不會抓取到D鏈接的內(nèi)容。
config.setPolitenessDelay(int politenessDelay):每次請求前等待毫秒數(shù),默認(rèn)不等待。可以防止抓取請求過快而被服務(wù)器端認(rèn)為是非法請求而終止訪問的情況。
可以通過如下代碼設(shè)定代理設(shè)置:
crawlConfig.setProxyHost("proxyserver.example.com");
crawlConfig.setProxyPort(8080);
如果代理需要認(rèn)證:
crawlConfig.setProxyUsername(username);
crawlConfig.getProxyPassword(password);
解析器
代碼解釋:
shouldVisit():用來實(shí)現(xiàn)滿足抓取數(shù)據(jù)的條件,如滿足抓取條件則返回true,返回false代表不滿足條件則放棄本次抓取。
visit(): 抓取返回的響應(yīng)結(jié)果,此示例中通過Jsoup來解析響應(yīng)內(nèi)容。Jsoup的代碼解析語法遵循JavaScript規(guī)范要求,對熟悉JavaScript的開發(fā)者使用起來比較方便易懂。
標(biāo)簽定位:HTML標(biāo)簽定位可以通過瀏覽器控制臺的方式進(jìn)行查看。
資源庫:
本示例中通過Java標(biāo)準(zhǔn)輸出流來替代資源庫的實(shí)現(xiàn)部分,未單獨(dú)實(shí)現(xiàn)資源庫的代碼。從輸出結(jié)果可以看出項(xiàng)目設(shè)定10個線程同時(shí)抓取滿足條件的第一級深度的博客文章共計(jì)21篇。
規(guī)避反爬蟲技術(shù)
在實(shí)際項(xiàng)目抓取的過程中應(yīng)該滿足君子協(xié)議即不違背robots.txt定義的抓取協(xié)議。同時(shí)爬蟲項(xiàng)目的開發(fā)中可能會遇被抓取的WEB網(wǎng)站對訪問頻繁程度的限制,異步Ajax動態(tài)渲染數(shù)據(jù)等。可以參考如下方法解決:
通過設(shè)定動態(tài)IP代理的方式,每抓取幾次之后動態(tài)更換IP地址,讓服務(wù)器端判斷每次IP來源不同;
通過設(shè)定抓取前休眠時(shí)間來降低抓取頻度;
分析動態(tài)Ajax請求,結(jié)合Jsoup進(jìn)行單獨(dú)的URL請求,獲取異步請求數(shù)據(jù)響應(yīng)內(nèi)容;
通過Selenium等相關(guān)自動化測試工具,模擬真實(shí)的瀏覽器請求獲取Ajax異步請求渲染之后的數(shù)據(jù);
通過設(shè)定Header中的值,來規(guī)避相關(guān)請求參數(shù)的限制。
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-11.13立即報(bào)名>>> 【在線會議】多物理場仿真助跑新能源汽車
-
11月28日立即報(bào)名>>> 2024工程師系列—工業(yè)電子技術(shù)在線會議
-
12月19日立即報(bào)名>> 【線下會議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
-
即日-12.26火熱報(bào)名中>> OFweek2024中國智造CIO在線峰會
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
-
精彩回顧立即查看>> 【限時(shí)免費(fèi)下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
推薦專題
- 1 【一周車話】沒有方向盤和踏板的車,你敢坐嗎?
- 2 特斯拉發(fā)布無人駕駛車,還未迎來“Chatgpt時(shí)刻”
- 3 特斯拉股價(jià)大跌15%:Robotaxi離落地還差一個蘿卜快跑
- 4 馬斯克給的“驚喜”夠嗎?
- 5 打完“價(jià)格戰(zhàn)”,大模型還要比什么?
- 6 馬斯克致敬“國產(chǎn)蘿卜”?
- 7 神經(jīng)網(wǎng)絡(luò),誰是盈利最強(qiáng)企業(yè)?
- 8 比蘋果偉大100倍!真正改寫人類歷史的智能產(chǎn)品降臨
- 9 諾獎進(jìn)入“AI時(shí)代”,人類何去何從?
- 10 Open AI融資后成萬億獨(dú)角獸,AI人才之爭開啟
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市