最近,我們經(jīng)常能夠聽到“XX公司做違法爬蟲”被一鍋端,程序員坐牢。還有XX公司的爬蟲給12306網(wǎng)站帶來(lái)重壓等等新聞,在看熱鬧的同時(shí),很多人都會(huì)提出疑問——爬蟲到底是啥?今天就徹底給您講明白。
按照定義“網(wǎng)絡(luò)爬蟲”就是按照一定的規(guī)則,自動(dòng)地抓取互聯(lián)網(wǎng)信息的程序或者腳本,能夠把網(wǎng)站上的信息收集回來(lái),并且能在網(wǎng)站之間游走。爬蟲還會(huì)模擬人的行為,這看看、那瞅瞅。
比如百度、谷歌等搜索引擎就是典型的“爬蟲”,當(dāng)你搜索“科技富能量”這個(gè)關(guān)鍵詞時(shí),搜索引擎就會(huì)到各個(gè)網(wǎng)站上把和這個(gè)關(guān)鍵詞有關(guān)的內(nèi)容找來(lái)呈現(xiàn)在結(jié)果頁(yè)面。
搜索之后,我們自然會(huì)選擇想要的結(jié)果點(diǎn)擊進(jìn)去,這樣“被爬”的網(wǎng)站增加了點(diǎn)擊量,搜索引擎也獲得流量,這屬于雙贏局面。
但并非所有網(wǎng)站都愿意“被爬”。比如12306,作為中國(guó)唯一的官方火車票預(yù)訂渠道,本身每天就有海量點(diǎn)擊,但火車票代訂、代刷軟件(比如攜程、360等),為了掙搶票費(fèi),也會(huì)使用爬蟲軟件,惡意爬12306.
最瘋狂的時(shí)候,就是年前那段時(shí)間,公開數(shù)據(jù)表示:最高峰時(shí)1天內(nèi)頁(yè)面瀏覽量達(dá)813.4億次,1小時(shí)最高點(diǎn)擊量59.3億次,平均每秒164.8萬(wàn)次。
令人討厭的不僅僅有搶票爬蟲,還有微博的“僵尸爬蟲”——僵尸粉
打開某流量明星的留言頁(yè)面你就會(huì)看到,海量的留言量中,除了幾個(gè)真粉的發(fā)言,剩下的都是“步調(diào)一致”的僵尸粉。為啥流量明星最愛爬蟲?因?yàn)樗麄兛梢愿嬖V廠商——我有流量,我有海量粉絲,來(lái)找我做代言/拍戲吧!
某流量明星留言中,還帶著“文案”二字
當(dāng)然,還有中性爬蟲——比價(jià)軟件。
按照正常購(gòu)物流程,你會(huì)打開京東、淘寶甚至貝殼找房,查看同一商品然后進(jìn)行價(jià)格對(duì)比,費(fèi)時(shí)費(fèi)力。
在比價(jià)網(wǎng)站上,你搜索一樣商品,這類聚合平臺(tái)就會(huì)自動(dòng)把各個(gè)電商的商品都放在你面前供你選擇,基本各大購(gòu)物網(wǎng)站都能囊括在內(nèi)。這就是“爬蟲”的功勞。它們?nèi)ジ骷译娚誊浖?,把商品的圖片和價(jià)格統(tǒng)統(tǒng)扒下來(lái),然后在自己這里展示。
這種爬蟲方便了用戶卻“惡心”了電商,因?yàn)殡娚唐脚_(tái)會(huì)把最顯眼的位置留給交錢最多的賣家,你都爬走了,肯定按照最便宜的產(chǎn)品展示,如此一來(lái),誰(shuí)還看交過錢的商家呢?
但是電商平臺(tái)沒法像12306那樣設(shè)置驗(yàn)證碼,而且爬蟲還會(huì)模擬用戶的操作行為,你能想象每打開一次商品就輸入一次驗(yàn)證碼嗎?誰(shuí)還愿意買東西呢?
但是電商平臺(tái)也不是吃素的,各種封禁爬蟲IP地址、故意耗費(fèi)爬蟲程序資源等等方式也很常見,爬與被爬的攻防戰(zhàn),一刻不停。
最重要的是,雖然《網(wǎng)絡(luò)安全法》沒有對(duì)爬蟲行為作出明確規(guī)定,但是其司法解釋寫道“未經(jīng)授權(quán)爬取用戶手機(jī)通訊錄超過50條記錄;未經(jīng)授權(quán)抓取用戶淘寶交易記錄超過500條;未經(jīng)授權(quán)讀取用戶運(yùn)營(yíng)商網(wǎng)站通話記錄超過500條;未經(jīng)授權(quán)讀取用戶公積金社保記錄的超過50000條的?!笨梢匀胄獭?/p>
技術(shù)本無(wú)善惡之分,就看爬與被爬的,到底是誰(shuí)。
編輯:hfy
-
網(wǎng)絡(luò)爬蟲
+關(guān)注
關(guān)注
1文章
52瀏覽量
8729 -
爬蟲
+關(guān)注
關(guān)注
0文章
82瀏覽量
7023
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論