欢迎来到大数据时代。也欢迎来到个人隐私岌岌可危的时代。 作为普通人,你可能对自己的数据被利用到何种境地还缺乏感受。但警觉的内行人,比如网络安全工程师魏从,却感受到了隐私环境的危险。 他至今对去年10月网易邮箱“疑似被黑”的事故印象深刻——过亿条用户名、密码、登陆IP、生日等信息被窃。尽管网易否认数据库遭到攻击,称是黑客获得了部分用户在其他平台相同的账号和密码、撞库所得。但魏从并不相信这种说法,他下载分析了这个被盗数据包,发现量特别大,“超大个儿一个数据包。” 他的一名同事有个习惯,每次接到快递包裹,都会用黑色记号笔,逐条划掉快递包裹上的铅字——收货人姓名、联系方式、收货地址等等。她听说小区楼下收废品的人,会把纸箱上的信息单撕下来,转手倒卖出去。不久后这笔数据交易会变成一通推销甚至诈骗电话,再找上门来。 新闻里的“徐玉玉案”令她不寒而栗——因为考生信息被泄露,家境困难的高中毕业生徐玉玉,在接到大学录取通知书后,随即也接到一通电信诈骗电话,被以办理助学金为由骗走9900元学费,伤心欲绝之下,年轻的女孩心脏骤停而亡。 这些事可能发生在每个人身上,平日多做些预防工作总没错。但她不知道的是,无论她划掉多少张快递单,个人信息泄露几乎防不胜防。 “收废品捡快递单的方法效率太low了,现在都直接从淘宝店主那端买发货单,5块钱一张。”魏从告诉36氪。 世界从未变得如此数据驱动。诈骗只是个人数据的一种小范围用途。在大家都在谈论人工智能、个性化推荐、精准营销的现在,世界从未如此渴望知道“你”是谁;从金融,到医疗,广告到电商,各行各业从未像现在这样对数据充满渴求。短短几年,随着市场爆发出的需求量,中国已经催生出市值21亿元的新三板数据服务商数据堂。 大家都意识到了:数据,这是新商业时代最重要的议题。 一位行业内人士透露,为了描述和分析一个用户画像,阿里巴巴构建了741个维度,来收集数据。“弱数据甚至更多。所有的数据,你买过什么,购买频率和价格,你住在哪,银行里有多少钱,它全知道。” 今年,大公司之间为了争夺数据,爆发了前所未有之多的争斗。运满满举报货车帮盗取6000万条竞争对手货运数据;新浪微博诉脉脉过度攫取用户数据;腾讯控诉华为Magic手机侵犯用户隐私……过去则少有这样的情况。当两年前,马云说阿里巴巴要做数据公司、未来最大的能源是数据时,还稍显空洞。 商业和用户隐私之间,由此发生激烈对撞。 由于中国数据监管尚且模糊,回国的硅谷技术人才,将中国视为创业天堂。一位从事人工智能+医疗的创业者对36氪说,“算法的门槛并不高,真正稀罕的是用户的医疗数据。在美国,病患数据的归属权是个人,很难拿到,但在国内,只要跟医疗机构合作,就能获取这些数据来训练智能诊疗模型。” 大数据、人工智能改变世界,提升诊断的效率和准确度,这是一幅美好蓝图,唯独忽略了一点:在不知情的情况下,你的隐私医疗数据正从医生电脑里流向一家商业公司。 尽管技术无罪,但商业对数据的贪婪缺乏克制。利益驱使各种诸如网路爬虫、盗取手机root权限的技术,让个人隐私数据,也前所未有地暴露在市场上。 隐私数据与商业的冲撞是如此激烈,连国家也意识到了。5月和7月,公安部和网信办两次集中审查大数据企业。首批,包括数据堂在内的15家公司被请去“喝茶”,询问数据来源和运营模式。不仅如此,掌握大量个人信息的互联网公司,比如招聘网站,也收到了执法部门的警示。 大数据的交易,一直在黑、白、灰色地带间游走。我们正生活在楚门的世界,这毫不夸张。 黑:窃取数据的大规模失窃,正在一次又一次出现。 最近的一个大案,是2017年5月至7月间,一伙有组织的黑客盗取了美国征信巨头Equifax的服务器权限,卷走了1.43亿用户的个人隐私数据。这意味着44%美国人的姓名、出生日期、手机号码、住址、SNN(社会安全号码,类似于身份证,可以追踪纳税情况),以及21万美国人的信用卡号,部分驾照号和法律文件,正躺在黑市上待价而沽。 因为保护数据不利,如今悬在Equifax头上的是一桩700亿美元的赔偿官司。 在中国,一个涵盖上千万条京东用户数据的12G数据包,去年底成了黑市上的“地摊货”。知情人士透露,这份数据包囊括了姓名、密码、邮箱、身份证、电话、QQ等多个维度的用户信息。已经在黑市上层层售卖转了上百道手,标价10万至70万不等。 数据泄露不仅来自外部攻击,还源自利益诱惑下的内部泄漏。 今年6月,国内破获的一起案件中,22名苹果及相关公司的员工,利用自己的Apple ID进入公司内部系统,盗取了大量苹果用户的姓名、手机号码、Apple ID等数据,并在黑市以每人10元至180元的价格倒卖出去。 一张苹果内部ID意味着触及公司全部用户数据的权利。据《商业内幕》报道,大量黑客愿支付2万欧元以获取一张苹果内部ID信息。 今年3月,京东主动公布:处于试用期的京东网络工程师郑海鹏,与外部黑客团伙勾结,盗出大量物流、交易及用户身份信息。警方介入后,发现这竟是个“职业内鬼”,曾在多家互联网公司任职,盗窃个人隐私数据达到50亿条。 去年,也有3个来自京东物流部门的“内鬼”,盗走了9313条用户数据,这些信息最后被用于骗取了上百万用户的资金。 隐私数据倒卖远比你想象的猖獗。在已公布的案例中,携程、圆通快递、世纪佳缘、当当网、如家酒店……都曾遭遇过类似的数据洗劫。 大型互联网公司约等于一个又一个肥美的大型数据库。盗取和贩卖隐私则成了个产业。 “全世界只有两种网站:被破解的网站,和还不知道自己被破解的网站。”网络安全工程师魏从对36氪说。 魏从这样的行内人,能看到黑色数据的贩卖在“暗网”上持续进行。全球共有7万个网站在暗网上潜伏,你可以在那找到隐私、军火、A片,甚至谋杀教程。尽管卖的都是些惊悚的“货品”,暗网看上去却与普通电商的货架无异。 在暗网上,身份证号、社保账号、电话住址等个人数据被打包售卖,依据详细程度要价不同。 由于数据是可复制的,一旦流入暗网就会被无限转手。从深网,逐渐上浮到卖到表层网络,甚至普通人能接触到的贴吧、网盘。与此同时,数据的价值和标价也层层稀释。一家100人体量互联网公司的用户数据,在暗网上标注的价格可能是1000元,倒过几手后,价格也会稀释到起初的十分之一。 对于有技术的黑客,把几十万人的隐私数据偷出来贩卖只是分分钟的事。他们成团伙作案,顶级的黑客会把入侵工具撒入互联网,自动破解触及到的网站,一扫“中弹”的可能就成百上千。数据得手后会被转给专人破解、加工和整理,在由负责销售的人以不同价格卖给不同的买家。 每时每刻,都有网站被攻破。 疯狂的窃取,驱动自最强烈的需求。 隔三差五,何崇就会接到客户买数据的要求。何崇经营着一家用人工智能技术做精准营销的公司,何崇发现,在移动营销领域想多赚点钱,几乎避不开数据购买,广告主越来越好奇自己的用户都是些什么人,他们希望何崇不仅仅提供算法,也能一站式补全用户数据。 精准营销、人工智能都是大的数据买家。百度一年仅在数据堂购买的语音数据就达到一两千万小时。初创人工智能公司的平均购买量,也动辄在30万至200万小时之间。数据堂创始人齐红威回忆,10年前在实验室训练机器人时,市面上的购买量也不过一两百个小时。 但人工智能底层技术离钱很远,而在互联网金融行业,数据约等同于钱。也因此,“买个人隐私数据最凶的,是金融类企业。”互金公司给何崇开出的补全数据价码最高,是一个人头100块钱。 中国的金融信贷公司,大致有三条购买数据的渠道:央行征信中心、有公安背景的征信机构国政通、查学生数据的学信网、以及运营商等国有渠道;第三方大数据服务商;精准营销公司。 白色渠道的数据查询需求已经在急剧增长。据财新报道,2016年,有公安部背景的身份证查询中心,一套带人像照片比对的查询量共约26亿次;而在2012年,年查询量还不到10亿次。查询量激增主要源于大量的消费金融需求。 何崇对36氪称,在白色渠道外,绝大多数金融机构仍严重依赖来自后两类渠道的数据。因为“白色”渠道能提供的数据有限。以央行征信中心为例,截至去年下半年覆盖中国8.8亿人口的征信数据,这意味着其余5亿人口的信息是一片空白。 这5亿人口,多是蓝领、大学生或刚步入社会的年轻人,尚未在任何银行留下信用记录。与此同时,他们也是如今最时髦的现金贷、消费金融公司、以及陷入转型危机的传统银行紧盯的用户。 现金贷的风险控制方式,正是大数据新时代的典型模式。网贷之家CEO徐红伟告诉36氪,小额贷款的现金贷与传统十几万贷款的风控方式完全不同,传统方式是用线下调查,而现金贷则是完全自动化在线上完成,依赖于智能手机中产生的用户数据和行为轨迹。 借贷给这类高风险人群,最关键是要能收得回帐,预先识别出好人坏人。做好风控模型、预判违约成本,是这门生意最关键的命门,而养模型的前提就是先拿到用户数据。 风控对数据的渴求没有边界:身份证、学历学籍、信用卡和银行卡号、设备指纹、消费情况、LBS数据及手机中的使用行为数据,乃至你银行卡的金额和收支信息。每增加一项数据,坏账就少了一些,利润就多了一些。 出于风险考虑,何崇不愿意自己买数据,他管这叫“脏活”。一般做数据购买的是数据代理商,通常由数据服务公司、咨询公司来扮演。 这些数据服务公司通过自己的门路,找到上游或黑或白的卖家:盗取数据的黑客、通过在APP中植入SDK插件来获取数据的工具类公司、沉淀了大量用户数据的电商公司,甚至想偷偷赚上一笔、有用户系统权限的手机厂商。 据财新报道,一家叫做“联动优势”的公司提供的数据详尽得可怕,包括:个人开卡银行张数、借记卡张数、信用卡卡龄、账龄,近三个月到一年的账动笔数、出入账总金额,银行卡消费总额(包括线上消费)、当前余额、手机号入网年限、手机号是否实名等。一家叫百融金服的公司,产品清单上也有银行卡月度收支数据。 联动优势的关联方公司与运营商长期合作,为十余万家客户提供短信群发服务,包括政府机构、互联网、商业企业、金融保险、银行、物流等。与其有业务往来的人士认为,联动优势加工数据后,“将金融有关的信息,比如银行发给客户的交易信息,卖给金融行业有风控需求的公司,以及贷款催收部门。” 从黑灰色渠道购买,也是为了省钱。“灰色渠道的卖法无非是拷贝一份数据,所以可以卖得很便宜。去白色渠道国政通查询一次身份证需要5块钱,但很多互联网公司其实都掌握了大量的用户数据,开价2毛钱,甚至几分钱就可以查一次。”融之家CEO张建梁告诉36氪。 企业对隐私数据的贪婪和越界获取,终归引发了政府的关注。是6月1日新出台的《网络安全法》,首批打击目标就是黑客、数据交易公司,互联网公司“内鬼”。 根据最高法、最高检的司法解释,“非法获取、出售或者提供行踪轨迹信息、通信内容、征信信息、财产信息50条以上”,即属情节严重,可入刑。 整肃开始了。 今年的网络安全大会,魏从看到台上罕见的出现了“蓝帽子”嘉宾(即公安背景的“黑客”),演讲的核心就是不同程度的盗取数据行为,将受到怎样的法律制裁。 9月的一宗判决起了杀鸡儆猴的作用。地产经纪杨某,因侵犯个人信息罪被法院判决拘役三个月,并处罚4000元人民币。起因是,她通过微信给上级主管发送了113条某小区业主的个人信息。其中包括房产面积、门牌号、楼栋号、楼层、姓名、电话及楼盘名称。这些信息,是她所在的公司准备用来“拉客户”的。 鉴于“买房、借贷、孩子上学”,是中国骚扰电话的永恒的三大主题,个人隐私信息在房产中介圈的疯狂流转,早已成为潜规则,行里人常在QQ群中交换和买卖业主的信息。如今,地产圈风声鹤唳。“现在风声太紧了,前两天刚有同事被抓,”36氪接触的十几位房产中介,皆以太过敏感为由,拒绝了采访。 为了规避政策风险,在《网络安全法》实施前,同盾停掉了“失联人修复”服务。因为这项服务涉及为有的银行提供用户的联系方式,在新规之下颇为敏感。 “过去我们给一些银行提供过这项服务,但对方具有完整的用户授权,”同盾科技副总裁顾威对36氪解释称,“我们并不靠这项边缘业务赚钱,只是为解决客户针对其恶意逾期用户的催款需求。” 据他估算,“至少80%沾染黑产,从事征信和反欺诈数据交易的公司会倒闭。” 灰 :越界“千万不要说我们是数据交易公司!”36氪接触的三家数据服务商提心吊胆地强调,现在“交易”是个敏感词,如果严格按照新出台的《网络安全法》的定义,“过往的数据交易没有纯白色的”。 大家纷纷强调,自己是做分析整合数据的;而且数据来源都来自客户,而客户在拿数据时,也得拿到用户的授权。 “授权”二字,是区别是否合法的关键。但很多时候,授权合法而不合理,处于灰色地带。 在智能手机不离手的时代,手机和App,让每个人产生的数据大量增加了。 当你在安装一款APP的几分钟空档里,几万字用户协议,隐蔽地在你5.5英寸的手机屏幕上开了个小窗口,你会逐字看,还是快速地按下“同意”?而“不同意”意味着没有APP会为你提供服务。 目前被查处的大多只是存在“明偷明抢”行为的一些公司,而公民个人隐私数据泄露的主要源头在于“暗盗暗窃”,尤其是一些安卓手机里APP,越界抓取一些和自身提供给用户的服务功能无关的用户数据。 开源的安卓系统,有五花八门的开发者版本,很多手机厂商并不具备及时升级填补系统漏洞的能力,这给了恶意软件极大的生存空间。猎豹移动安全专家李铁军对36氪称,安卓系统漏洞的修复,往往可能拖延一两年时间,甚至直到使用这个操作系统版本的硬件被市场淘汰,漏洞才会消失。如果恶意软件获得了安卓最底层的root权限,一台手机中的数据就都不是秘密。 在恶意软件之外,APP对用户的数据采集能力,往往是用户的盲区。安装APP时“同意”的用户协议,以及使用过程中APP申请开放的种种权限背后,用户交付了超乎想象的权利。 你手机中的用户隐私权限,可以划分为Root权限、读取联系人、获取手机号、读取短信记录、读取通话记录、获取用户位置信息、使用话筒录音、打开摄像头等12项。 至于这些获取这些功能权限都能做什么? 举个例子,开启了读取通讯录权限的APP,可以获得用户手机里所有联系人的数据。如果一款APP有上百万级别的用户量,那么能触及到的联系人名单,就有上千万体量。这些数据如果流入黑市,重要联系人的关系链,往往被诈骗分子所利用。 至于APP是否会把权限用于提供服务功能之外,侵犯你的隐私,只取决于它是否“选择”作恶。相应的,一旦点了使用协议的“我同意”按钮,用户就没有什么选择余地。 更令人担忧的,是要求用户授权自身服务不需要的功能权限,即越界采集数据。 DCCI的报告称,2016年,13%的非游戏类APP越界获取位置信息权限;这一数据在教育类APP中格外突出,为26%;9.1%的非游戏类APP越位获取访问联系人权限;甚至有2%的直播APP,越位获取通常手机厂商才有的最底层Root权限。 这种行为在开发者中十分普遍,行业称其为“占坑”。“有的功能是他们目前不需要的,申请下来是为了未来的某个版本可能会涉及到,备用。但更多时候压根就不需要这个功能,他们就是想要一些额外的东西。”李铁军对36氪说。 这些额外的数据不愁没有用武之地。 DCCI未来智库对36氪称,这大致有三类用途:一类用户精准营销,优化网络广告。拿到数据的APP厂商会对每个用户的数据长期跟踪、持续抓取,甚至出于多多益善的心态,无论是否与自己的服务有关,全抓过来; 一类APP会跟第三方广告网络、游戏推广和电商营销平台合作,通过输出甚至交换、买卖数据赚钱; 第三类APP会接受营销公司、App数据分析公司在自己的应用中潜入SDK,长期采集数据。但用户却不知道,其实自己的数据已经流向了第三方公司。 长久以来,APP的数据猎取生态链,以“合法但不合理”的状态存在着——大量APP用户协议以霸王条款“自说自话”,回避数据的采集情况和具体用途。相对的,用户一方面处于“不知情”的弱势地位。 “基本上这种协议都是不对等的。有些公司的协议里面,写明要收集哪些信息,怎么使用,看完之后会吓一跳。”李铁军说,国外的隐私侵权一般都是集体诉讼,代价高昂,在美国、欧洲甚至部分东南亚地区,对隐私数据侵犯的处罚力度远高于中国。 今年年初,美图秀秀因为一组特朗普的磨皮照片在美国市场迅速蹿红。24小时内冲刺到APP Store总榜第55名的位置。 但随即,美图秀秀在舆论上遭遇低谷:大批美国安全专家指出,美图在获取能满足拍摄、编辑、存储的访问相机权限后,还试图获取用户的通信记录、Wifi信息、运营商信息,以及手机唯一的 IMSI 码,这意味着美图将获知你在手机端浏览网页及使用其他APP的信息。 业内人士对36氪称,《网络安全法》落地前后,大量互联网公司的法务部门在紧急重新修订用户协议。 《网络安全法》,要求“网络运营者不得收集与其提供的服务无关的个人信息”。其第四十一条,要求网络运营者“公开收集、使用规则,明示收集、使用信息的目的、方式和范围,并经被收集者同意。” 但“明示”二字,并不那么容易做到。 某大型互联网公司8月份新修订的用户协议中写道:“仅为实现本隐私权政策中声明的目的,我们的某些服务将由我们和授权合作伙伴共同提供。我们可能会与合作伙伴共享您的某些个人信息,以提供更好的客户服务和用户体验。” 这显然是一段非常模糊的表述。 “现在公司都在尽可能让用户同意各种采集数据的情形。包括允许收集数据提供给业务关联方、第三方合作者。模糊的表述涵盖范围越广,它的法律风险就越小。”华东政法大学教授高富平对36氪表示,这种做法在国内现在看似管用,“但在国外,这种泛泛的称可以提供给第三方的说法,早就无效了。” 白:战争“技术、算法是没有门槛的。”算话征信CEO蒋庆军毕业于北大数学系,在普通人看来很高级的算法,在他看来,其实有足量的技术人才可以做,没什么稀罕,也构不成竞争门槛,“真正的门槛是数据。” 最近一年,何崇明显感觉生意不好做了。前不久,何崇谈了家手机品牌客户。模型已经设计好,到了快签约的环节,单子却被突然杀出来的一家电商巨头夺走了。“因为人家直接就有数据,而我们还在用模型去猜测用户行为,自然没有对方直接准确。” 例如,当该电商公司发现10%的三星手机用户,已经开始浏览华为手机,甚至放进购物车里,它就可以把这部分用户的数据交给三星,让后者由针对性地做营销来挽回老用户。 对何崇而言,这种优势差异是断崖性的。“以往大家还能从各种渠道搞到点数据,现在这些渠道被堵死了,数据生意成了几家巨头垄断的生意。” 而且,要服务大客户就要有大的数据量。“如果客户让你精准营销5万人,匹配度至少要达到80%,才能赚钱。这就要求你有非常大的装机量。”何崇说。 如果如马云所说,数据是这个时代的能源,那么围绕它的石油战争已经打响了。
|