五星云站融合人機區(qū)分技術(shù)搭建智能反爬蟲體系
目前網(wǎng)絡(luò)上爬蟲橫行,輕則消耗網(wǎng)絡(luò)和帶寬資源,影響網(wǎng)站服務(wù)的訪問速度,重則竊取企業(yè)產(chǎn)品信息,甚至讓網(wǎng)站無法訪問。
五星云站中借助極驗等云服務(wù)商,基于人工智能,融合人機區(qū)分技術(shù),層層過濾風(fēng)險流量。
1.基于Headers和User-Agent信息識別爬蟲
一般爬蟲的IP代理分布都比較廣,五星云站在日志里記錄里每個請求的User-Agent信息,從中找出訪問量最大的User-Agent,可以統(tǒng)計出每個爬蟲的請求次數(shù),對請求較多的爬蟲進行封鎖。
2.基于網(wǎng)站流量統(tǒng)計和分析查找爬蟲
比較流量統(tǒng)計系統(tǒng)記錄和服務(wù)器程序日志記錄,如果服務(wù)器日志里某個IP發(fā)起了大量的請求,在流量統(tǒng)計系統(tǒng)里根本找不到,那么無疑就是一個網(wǎng)絡(luò)爬蟲。
3.智能識別
根據(jù)業(yè)務(wù)場景,不斷收集爬蟲信息,區(qū)分正面樣本和負面樣本。
4.IP限制
在后臺對訪問進行統(tǒng)計,如果一個IP地址在短時間內(nèi)訪問頻率超過閾值,可以暫時對這個IP予以封鎖,需通過驗證碼訪問后才能繼續(xù)訪問,甚至可以禁止訪問。