一文告訴你爬蟲技術(shù)到底違不違法,怎么用才合法?
2015年,某公司授意五名程序員,利用網(wǎng)絡(luò)爬蟲獲取一公司服務(wù)器的公交車行駛信息、到站信息等數(shù)據(jù)。這五名程序員需承擔(dān)連帶責(zé)任。
2019年,某公司主管人員張某、宋某、侯某和郭某,利用爬蟲技術(shù),非法爬取北京字節(jié)跳動服務(wù)器存儲中的視頻數(shù)據(jù),被告人依法被判處有期徒刑9-10個月,并處罰金。
越來越多的案件,讓開發(fā)者越發(fā)不安,爬蟲也違法?公司要讓我爬取數(shù)據(jù),爬是不爬?爬吧?違法,不爬吧,也不好。
不僅僅是開發(fā)者,公司使用爬蟲技術(shù),也存在很多風(fēng)險。
2012年,360搜索爬取百度旗下等多個網(wǎng)站內(nèi)容,最終被裁定賠償百度70萬元;
2017年,秀淘非法抓取今日頭條內(nèi)容,被告被判九個月至一年不等的有期徒刑,并處罰金。
公司使用爬蟲技術(shù),怎么規(guī)避風(fēng)險?也成了一個大難題。
仔細(xì)研究爬蟲相關(guān)案例,我們不難總結(jié)出,如何合法的使用爬蟲技術(shù),規(guī)避風(fēng)險。
遵守Robots協(xié)議
Robots是網(wǎng)站和爬蟲之間的君子協(xié)議,當(dāng)網(wǎng)站拒絕爬蟲訪問,爬取數(shù)據(jù)時,可以在根目錄下存放robots.txt文件,告訴爬蟲不能爬取網(wǎng)站全部或部分指定內(nèi)容。
只要Robots中的內(nèi)容,爬蟲都不允許訪問。360搜索爬取百度內(nèi)容一案中,就是因為360違反Robots協(xié)議,最終才判賠70萬元。
但是,網(wǎng)站沒有該協(xié)議,不意味著能隨意爬取數(shù)據(jù),也有可能違法。
爬蟲行為
開發(fā)者使用爬蟲技術(shù),如果請求頻率過高,接近DDoS攻擊的頻率,一旦造成目標(biāo)服務(wù)器癱瘓,這個就不是爬蟲行為,而是黑客行為,必定要承擔(dān)相應(yīng)的責(zé)任。
反爬措施
如果目標(biāo)網(wǎng)站已使用BotGuard爬蟲管理等云產(chǎn)品,來控制和管理爬蟲,或者使用了一些措施反爬,或者正常用戶不能到達(dá)的頁面。如果開發(fā)者強行突破以上這些措施,同樣會被界定為黑客行為。
爬取內(nèi)容
爬取的內(nèi)容是一條高壓線,絕對不能觸碰。包括但不限于:
1.爬取用戶信息謀利
2018年,新三板掛牌公司北京瑞智華勝科技股份有限公司,使用爬蟲非法竊取用戶個人信息30億條,該公司及其關(guān)聯(lián)公司6名犯罪嫌疑人被控制。
用戶個人信息屬于敏感信息,近幾年打擊力度越來越大,嚴(yán)禁使用爬蟲爬取這些信息。
2.爬取商業(yè)數(shù)據(jù)
2018年,武漢元光科技有限公司法定代表人授意四名員工,非法爬取競爭對手?jǐn)?shù)據(jù),被判賠50萬元。
很多公司為了獲得競爭優(yōu)勢,會使用爬蟲技術(shù),爬取競爭對手的內(nèi)容,但這一手段會構(gòu)成不正當(dāng)競爭。
3.爬取知識產(chǎn)權(quán)數(shù)據(jù)
爬取大量帶有知識產(chǎn)權(quán)的數(shù)據(jù),并且用于商業(yè)目的,屬于違法行為。
不難看出,爬蟲技術(shù)本身并不違法,關(guān)鍵在于使用的方式和目的。最后總結(jié)一下,爬蟲爬數(shù)據(jù)有幾個雷區(qū),一是只能爬取公開數(shù)據(jù),二是不能對目標(biāo)業(yè)務(wù)和網(wǎng)站造成影響,三是目標(biāo)網(wǎng)站的全部或部分內(nèi)容沒有使用反爬措施。




























