名詞解釋:“爬蟲”
一種常見的數據捕獲技術,又被稱為網頁蜘蛛、網絡機器人,其按照一定的規則,自動從互聯網上提取網絡信息的程序或腳本。
二手交易平臺上不少商家出售所謂“大數據”信息采集服務,號稱“專業爬蟲”。
二手交易平臺上一賣家自稱“專業老手”,可代寫各類爬蟲軟件。
簡歷采集器設有城市、兼職崗位、性別、年齡和發布時間等篩選條件。 網站截圖
“全國各省市三百多行業數據信息采集”、“python爬蟲程序數據采集代寫軟件,專業老手,定制化服務”……在某二手交易平臺上,有不少提供所謂“大數據”采集信息定制業務的商家,聲稱可進行“專業爬蟲”、“各大網站數據采集、數據處理、數據分析”。還有不少商家在QQ群里出售招聘網站簡歷采集器,可“無限量”導數據還幫忙介紹“客戶”。
南都記者調查發現,所謂大數據采集定制業務“火爆”的背后,隱藏著一條非法爬取用戶數據信息的黑色產業鏈——“專業老手”編寫爬蟲軟件、提供軟件定制服務、黑產團伙購買軟件批量生成“大數據”信息再轉手出售。業內專家指出,爬取數據信息存在法律風險,未經平臺授權的非法爬取行為可能構成侵權、違法甚至犯罪行為。
A
網貸、培訓信息、淘寶記錄……各行業數據定制可查
以“大數據信息采集”、“數據爬取”、“數據爬蟲”等為關鍵詞在某二手交易平臺上進行搜索,有很多提供所謂“大數據”采集信息服務的賣家。他們通常打著“數據爬蟲”、“數據采集”、“數據分析”的招牌,聲稱可進行“專業爬蟲”、爬取各大網站的數據信息,“只有你想要的,沒有我們做不到的”。
“全國各省市三百多行業數據信息采集”,二手平臺上一名賣家稱,可以爬取的數據信息范圍覆蓋美容美發、餐飲美食、娛樂休閑、教育培訓、親子護理、各類學校、醫療保健、物流快遞、建材裝修、汽車數碼等多個行業,“49元/市/行業”,“拍下后留下郵箱,采集數據當晚11點前發”。
那么,這些被爬取的“大數據”信息都包括哪些內容?該二手平臺上一位賣家告訴南都記者,爬取的信息包括各類網頁數據、公眾號網站、趕集58、鏈家、餓了么等網站平臺的用戶個人信息,還有賣家稱可爬取淘寶買家、商家信息、個人網貸最新一手實時申請數據等。
南都記者了解到,根據采集數據的難易程度,售價也不盡相同。前述商家稱數據采集“基本版的100,普通版的200,高級版的300,如需制作客戶端軟件,費用另加”。交易平臺數據顯示,該商品近期已被瀏覽超過3000次,有多名網友在該商品下方留言,詢問是否有唯品會、拼多多買家、58同城應聘者電話、小區業主等信息數據,賣家則回復可以提供,還特別提到“簡歷420萬份,主要是中高端用戶”,并稱具體業務“私聊”。
南都記者發現,這些所謂提供“大數據”信息采集服務的賣家有的是個人、有的則是團隊化操作的工作室,有賣家稱這類數據采集在行業內業務需求量大,是“微商線上微信社群營銷必備數據資料”,可用于精準推廣、拓展客戶和商品營銷。
B
招聘網站上萬份簡歷被打包出售, 每份僅1.5元
不久前,智聯招聘“內鬼”私賣16萬份簡歷信息一案引發關注,南都記者近日調查發現,被泄露的個人簡歷被多層轉手出售,“黑市”上海量簡歷被打包出售,每份僅1.5元。以“簡歷售賣”、“簡歷下載”為關鍵詞在QQ群中搜索,就能找到多個出售58同城、智聯招聘等知名招聘網站的簡歷信息的QQ群,最大的群人數有上千人。而在貼吧、二手交易平臺上,有不少公開出售智聯招聘、58同城、BOSS直聘等招聘網站上個人簡歷的帖子。
“全國58簡歷日產5000+,可以篩選年齡篩選重復,還有純二手簡歷,可出視頻驗證,二手0.3元/條”,在一個名叫“58簡歷全國交流群”中,南都記者看到,群內不斷有人發布出售知名招聘網站簡歷實時一手、二手信息的帖子,有的賣家還在群內交流互換資源。群內信息顯示,該群群成員總計超過2000人,高峰期的在線人數超過700人。
南都記者隨機添加一名賣家為QQ好友,對方稱他有全國各行業各地區的簡歷信息,“所有簡歷信息都是當天實時更新”,還可以指定求職者年齡、性別、地區,售價2.2元/條,而二手的則更便宜,僅售0.3元/條。某二手交易平臺上一賣家稱他手上有上萬份簡歷,“58同城、智聯招聘、趕集網的都有”,每份簡歷售價1.5元,“全國隨機,不指定地區”,購買量大價格還可以再優惠。
南都記者了解到,這些公開售賣、明碼標價的個人信息,根據地域、行業類別的不同,簡歷的價格標準也不一樣。二手平臺上一名出售智聯招聘簡歷的賣家告訴南都記者,“北上廣都比較貴”、“北京地區每份簡歷要賣六七塊”。而除出售簡歷信息外,企業賬號也可以被當成商品出售或轉賣,有賣家告訴記者,購買企業賬號可以直接下載招聘網站求職者投遞的簡歷信息,“地區行業你說了算”。
當記者詢問購買簡歷的人拿這些個人信息去做什么,賣家提高了警惕,回復稱“不管你拿去干什么”,還不耐煩地表示“不用跟我說這個”,隨后便把記者拉進了黑名單。
C
裁判文書網、知網數據也被爬 最低0.1元/條
南都記者注意到,除爬取各行業網站等用戶消費、瀏覽數據外,中國裁判文書網判決文書也被當成商品出現在二手交易平臺,有賣家稱可通過數據爬蟲技術,導出幾百萬甚至上千萬條裁判文書網判決文書。
“裁判文書爬取,可長期提供更新全量數據,需要的私聊”,“裁判文書網6500萬數據,0.1元/條,低于100萬的數據,0.2元/條,低于1萬的數據,0.5元/條,低于10條的數據,查詢成本太高,不提供,有需要可以詳聊”……某二手交易平臺上,不少賣家稱有海量裁判文書網判決書出售。
有賣家告訴南都記者,此類判決書可以根據客戶需要的條件檢索爬取,只要給出案件類型、審判程序、案由等關鍵詞,就可以按類別進行海量數據導出,最終交付形式是Word或者Excel格式,提供SQL文件(數據庫腳本文件)。
此前,有不少用戶反映裁判文書網網站運行速度慢,故障頻繁,經常出現頁面無法顯示的問題,今年2月,最高人民法院在其官網答復稱,出現此問題的原因在于有大量技術公司通過爬蟲系統無限制并發訪問非法獲取裁判文書數據,造成網站負荷過大。針對此問題,最高法表示自2018年7月起以驗證碼的方式上線系統軟件防爬功能。
而除了裁判文書網,南都記者發現,一些付費網站的數據也同樣能被爬取,二手平臺上有不少賣家出售知網、萬方、知識庫;維普等文獻期刊數據,“全庫數據爬蟲抓取,2元起”。
背景
非法爬取“大數據”已呈公司化運營
去年8月,南都聯合阿里安全部發布的《2018網絡黑灰產治理研究報告》顯示,2017年我國網絡安全產業規模為450多億元,而黑灰產已達近千億元規模。在網絡黑灰產的整條產業鏈中,利用各種手段爬取、竊取或者通過買賣的方式獲得個人信息,成為黑灰產獲利的主要方式,由此滋生出的電信詐騙、敲詐勒索等下游違法犯罪行為,對公民個人信息安全、財產安全造成嚴重威脅,成為侵蝕互聯網經濟正常運轉的毒瘤。
今年4月,北京警方破獲的巧達科技非法獲取計算機信息系統數據案引發關注。這個號稱中國最大的簡歷大數據公司,專業提供招聘工具軟件和大數據分析服務,擁有一系列的人力資源類大數據產品,包括喬大招、妙招網及愛伙伴等,還曾獲得天使輪、A輪和B輪融資,資方包括李開復的創新工場、中信產業基金等。
據警方披露,2018年10月,某互聯網公司報案稱,其公司員工發現有人在互聯網上兜售疑似為該公司用戶信息的數據。通過對該公司服務器日志進行調取、梳理、分析,初步還原了數據被竊取的全過程。巧達科技公司在未經授權的情況下,通過利用大量代理IP地址、偽造設備標識等技術手段,繞過該公司服務器防護策略,大量惡意竊取存放在服務器上的用戶數據。且在竊取過程中,由于傳輸數據量過大,導致服務器數十次中斷服務,影響上千萬用戶正常訪問,給該公司帶來了嚴重的經濟損失。
律師說法
未經平臺授權爬取數據信息或構成侵權、違法甚至犯罪
在對上述所謂“大數據”軟件提供信息采集服務的現象進行調查中,南都記者注意到,有賣家在其業務介紹中自證清白稱“違法亂紀的不做”,所提供的軟件外包和數據爬取等業務只爬取各種網頁、App公開的“看得見”的數據。
那么,按照大數據采集商的觀點,如果爬取的是網頁等公開數據,這種行為就真的合理合規?
事實上,非法獲取數據存在諸多法律風險,雖然利用爬蟲軟件等各種技術手段爬取互聯網數據的行為廣泛存在,但為保護自身數據不被爬取,很多企業也都設置了反爬蟲策略。當網絡爬蟲非法抓取數據信息時,可能構成的侵權、違法甚至犯罪行為主要包括危害計算機信息系統安全類、非法獲取公民個人信息類和侵犯知識產權類等。
近年來,企業之間通過數據爬取引發的對于數據權益爭奪的各種案件層出不窮。比如,新浪訴脈脈抓取新浪微博用戶信息案、淘寶訴美景不正當競爭案等,對于非法爬取企業數據的行為,法律也更傾向于保護企業經營者的權利。
《網絡安全法》第27條規定,任何個人和組織不得從事“竊取網絡數據”等危害網絡安全的活動,不得提供專門用于從事侵入網絡、干擾網絡正常功能及防護措施、竊取網絡數據等危害網絡安全活動的程序、工具。
述紹興警方破獲的這起大規模數據竊取案件中,上市黑產公司在運營商服務器內放置惡意程序清洗流量,導致30億條用戶數據被竊取。近日,公司法定代表人周某某等7人因涉嫌非法獲取計算機信息系統數據罪,被檢察機關提起公訴。
針對裁判文書網數據被爬蟲售賣一事,北京市社會組織法律調解中心副理事長張新年律師認為,裁判文書網站上的內容基于司法公開目的,是免費的公共資源,未經最高人民法院授權,商家售賣裁判文書網數據則會構成侵權。
大數據爬蟲背后誰在提供技術支持?
網售大數據采集定制業務如此“火爆”,這些所謂的“大數據”信息從何而來?又是如何被泄露出去的?南都記者調查發現,這背后隱藏著一條非法爬取用戶數據的黑色產業鏈——“專業老手”編寫爬蟲軟件、提供軟件訂制服務、黑產團伙購買軟件批量生成“大數據”信息再轉手出售。
“專業老手”代寫爬蟲軟件
所謂爬蟲,是一種常見的數據捕獲技術,又被稱為網頁蜘蛛,網絡機器人,其按照一定的規則,自動從互聯網上提取網絡信息的程序或腳本。雖然利用爬蟲軟件等各種技術手段爬取互聯網數據的行為廣泛存在,但為保護自身數據不被爬取,很多企業也都設置了反爬蟲策略。
“python爬蟲程序數據采集代寫軟件,專業老手,定制化服務”,二手平臺上一位賣家介紹,其提供各類大數據采集軟件代寫訂制服務,可進行“各種加密網站破解登錄”,采集數據范圍包括攜程春秋航空等旅游網、美團天貓京東拼多多、微博知乎豆瓣等電商社交平臺。該賣家稱,他們是“一批精通軟件開發的編程高手組成”的軟件開發團隊。平臺信息顯示,該賣家近期已完成多筆交易,用戶反饋“好評如潮”。
“網絡數據訂制云端代采集京東淘寶車主金融等所有行業信息采集,拍下發軟件”,二手平臺上另一名賣家向南都記者介紹了一款名叫“智能云”的軟件,售價980元,稱該可采集的數據信息覆蓋地圖商家、搜索引擎、企業信息、車主信息等全網大數據,軟件有導入微信通訊錄、QQ群成員提取、微信群發、微信營銷、QQ營銷、論壇營銷等多個功能界面。賣家介紹稱,該軟件可用來為各行業進行大數據引流、精準營銷。
簡歷采集器700元/套“無限”導
除提供信息定制服務外,南都記者調查發現,網上還有商家出售所謂簡歷信息采集器,可自動爬取知名招聘網站上的海量個人簡歷信息。在QQ群“58趕集簡歷采集”中,QQ網友“無名”稱簡歷采集器可“無限量”導出58同城求職者的個人簡歷信息,“全網實時同步”,“名字、電話、需要的工作、家庭地址都有,兼職全職都有”。
該賣家告訴南都記者,他用這個軟件從招聘網站導出個人簡歷信息,然后在網上售賣,“一手1.5元,二手0.3元”,還向記者打包票軟件“能賺錢”、“好用”,并表示如果買了這個軟件,他還可幫忙介紹“客戶”。
南都記者注意到,商家出售的上述簡歷信息采集器主要是針對58同城,“趕集網和智聯招聘比較少”。那么,這類簡歷信息采集器是如何批量爬取招聘網站的用戶個人簡歷呢?有業內專家就此分析過58簡歷信息采集器的“盜取手法”:
黑產團伙利用58同城在移動端的一個接口批量獲取用戶的簡歷ID以及加密不嚴謹的用戶ID信息,再通過另一個接口導致用戶包括姓名等真實信息泄漏,最后通過58的微店程序能夠通過用戶ID最終獲取用戶的電話號碼。
一名出售58簡歷信息采集器的QQ網友“大神-售58簡歷采集器”向南都記者表示,他的軟件可實時導出58同城、趕集網簡歷數據,采用的是“雙接口”和爬蟲技術,軟件安裝在PC端后,設置好條件便可進行實時數據導出,“上手快好操作”,售價為700元/月。根據賣家發來的視頻截圖,這種簡歷采集器設有城市、兼職崗位、性別、年齡和發布時間等篩選條件,采集到的數據包括姓名、手機號碼、學歷信息、工作年限、期待月薪等個人信息。
(采寫:南都記者 王琦)