淘宝爬虫,淘宝爬虫获取不了多少数据?

淘宝爬虫,淘宝爬虫获取不了多少数据?

观察者网报道(作者/胡毓靖 编辑/庄怡)最近,河南省商丘市睢阳区人民法院发布了一份刑事判决书。内容显示,逯某和黎某这两名男子利用自己研发的爬虫程序,对淘宝进行了长达八个月的数据抓取。在阿里尚未察觉到此问题之前,他们已经成功获取了近12亿条用户信息。

淘宝爬虫,淘宝爬虫获取不了多少数据?

法院做出裁定,逯某和黎某因侵犯公民个人信息罪被判处有期徒刑三年以上,此外还需共同缴纳罚金45万元,违法所得也将上交国库。

观察者网就此事项已联系阿里巴巴,截止目前尚未获得回复。

根据《华尔街日报》的报道,阿里巴巴的一位发言人表示,该公司已经主动识别并处理了相关事件,并正在与执法机关合作以保障用户安全。然而,该发言人并没有具体披露受到影响的用户数量,只提到用户信息没有泄露给第三方,也未造成经济损失。

根据观察者网对判决书的调查,逯某作为雇员为黎某工作。从2019年11月起,他在淘宝网站上利用自己开发的网页爬虫软件,抓取用户的ID、手机号码和评论等信息。逯某将淘宝用户的手机号码提供给黎某所创办的浏阳市泰创网络科技有限公司用于业务运营。根据数据显示,从2019年8月至2020年7月,该公司违法获得了395万元的收益。

判决书中指出,浏阳市泰创网络科技有限公司的核心业务为“淘宝客”,其主要通过微信群来推广淘宝商品,以此赚取淘宝佣金和商家的服务费。证人王某证明道,他们公司的社群成员在创建好各自的微信群后,会将群的二维码交给老板黎某,之后便会有人成为群内的新成员。

淘宝作为国内领先的电商平台之一,积聚了大量的用户隐私和购买行为数据。根据阿里巴巴在2021财年第四季度发布的财务报告显示,中国零售市场的移动月活跃用户数量已达到9.25亿。此外,2021财年,阿里巴巴全球的活跃消费者总数也突破了10亿。

数据安全保护存疏漏

互联网科技企业中用户隐私泄露事件时有发生,而电商平台尤其容易成为信息泄露的重灾区。2016年12月,京东因安全漏洞遭遇了大规模的数据泄露,涉及到12G的数据在黑市上流传。泄露的信息包含多个维度,如用户名、密码、邮箱、QQ号、电话号码和身份证等,数量高达数千万条。

在用户信息泄露的阴影下,网络上隐私买卖情况愈发猖狂。根据证券时报的调查,一些专门开发数据采集软件的公司能够从京东、淘宝和拼多多等电商平台中提取用户资料。这款软件的价格仅为3800元,购买后,用户可以通过后台设置,按照行业、地区、性别等条件,提取所需的数据。

近期数据泄露事件频繁发生,这在某种程度上强调了数据的关键性与价值,同时也对互联网企业在数据保护方面提出了更高的要求。北京观韬中茂律所的胡杨律师在接受观察者网采访时指出,在此次事件中,犯罪嫌疑人通过非法手段获取了阿里系统的内部数据,手段相当隐秘。不过,阿里在此事件中也难以完全摆脱责任。

胡杨指出,此案件暴露了阿里在数据安全保护方面的不足和漏洞,并且未能及时识别和采取相应的补救措施。依据《网络安全法》第六十条规定,如果对于产品或服务中存在的安全缺陷和漏洞未能及时整改,或未按规定及时通知用户并向相关主管部门报告,主管部门将要求其进行整改并给予警告。

如果拒绝整改或导致网络安全等问题,将面临五万元至五十万元的罚款,而直接负责的管理人员则需承担一万元至十万元的罚款。因此,主管部门有权对阿里巴巴实施责令改正及相关处罚。

胡杨指出,近年来频繁出现的数据违法事件暴露了互联网公司在数据安全保护方面的重视程度和投入不足。国家近期正式颁布了《数据安全法》,这使得数据安全保护对互联网公司而言已不再是“可选课程”,而是“必修课程”,必须严格遵循法律规定来保障数据安全。

专家建议:增强接口管理力度。

上海谋乐网络科技有限公司的联合创始人兼首席技术官张雪松在接受观察者网采访时指出,在此次淘宝用户信息泄露事件中,阿里具备防止数据泄露的技术能力。他推测,这一大规模的12亿条信息泄露事件,可能源于淘宝内部接口的设计缺陷,同时违法分子可能利用IP池技术绕过了淘宝的监测系统。

张雪松指出,淘宝设有两个数据接口,在正常情况下,其反爬虫机制能够有效运作,能够及时阻止连续的爬取行为。然而,从接口设计来看,淘宝并未采取权限控制,来限制非本人访问用户的手机号码等信息。“或许是出于传播需求或其他便利性的考虑而开放了接口”,“我认为这体现的是设计上的问题,而非技术能力不足”。

另外,代理IP池的使用使得淘宝的反查系统难以有效运作。张雪松提到,当同一IP地址进行大量信息抓取时,会激活淘宝的反查机制,但通过代理IP的方式,这种检测变得异常困难。“这实际上是行业内一个颇具挑战性的问题,”他指出。

在此次事件中,犯罪嫌疑人获取了淘宝的数据,但真正受到影响的却是用户。针对用户隐私保护的问题,张雪松表示,阿里应当在接口管理方面采取更严格的控制措施,特别是在涉及到手机号等敏感信息时。

在IP代理模式方面,张雪松指出,阿里具备构建风险库的实力,可以将具有风险的IP纳入威胁特征库,并整合到安全防护和风险管理体系中。此外,阿里还应考虑与第三方安全公司建立合作关系,以便对海量数据进行更为全面的审查,从而进一步提升其安全机制的健全性。

本篇文章为观察者网的独家内容,未经许可,禁止转载。

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 sumchina520@foxmail.com 举报,一经查实,本站将立刻删除。
如若转载,请注明出处:https://www.dasum.cn/58561.html