首页 > 专栏

【专栏】3.15 | 听直播网课,你的信息会被爬走吗?

肖飒 · 零壹财经 2020-03-16 16:01:00 阅读:8942

关键词:App信息安全回避敏感对象法律边界爬虫四条红线网络爬虫

当下,线上活动已经成为人们主要的生活方式,各类直播层出不穷,一张图配一个二维码,点击扫描二维码就提示你下载某App应用,为了免费听直播,大家一路下载。 飒姐提醒您注意,App容易滋生个人信息安全问题,网络爬虫几乎就寄生在这些App之中,一旦我们点击同意隐私条款,可能很多...

当下,线上活动已经成为人们主要的生活方式,各类直播层出不穷,一张图配一个二维码,点击扫描二维码就提示你下载某App应用,为了免费听直播,大家一路下载。

飒姐提醒您注意,App容易滋生个人信息安全问题,网络爬虫几乎就寄生在这些App之中,一旦我们点击同意隐私条款,可能很多你意想不到的信息就被爬走了,为此,我们有必要为大家讲一讲网络爬虫的法律边界问题

网络爬虫的技术特点

网络爬虫是一个自动提取网页的程序。传统爬虫程序的主要功能是从一个或若干初始网页的URL开始, 获得初始网页上的URL;在抓取网页的过程中, 不断从当前页面上抽取新的URL放入队列, 直到满足系统的一定停止条件。根据爬虫的这一技术特点,它被广泛运用于搜索引擎中。
由于传统爬虫对数据的爬取是完全盲目的,通过对爬取限定条件,产生了多种新类型的爬虫技术。主要类型列举如下:

(1)基于网页分类器的爬虫。通过用户给定的主题目录和初始书签确定抓取目标,通过“分类器”技术明确抓取目标的特点并计算对象网页关联度,完成过滤并提供给主体程序,实现对主题目标的精准进行抓取。目前,网络上运行的多数爬虫都是这一模式。

(2)基于抽取器的网络爬虫。通过数据抽取器,将页面上的内容进行数据抽取,并以数据形式进行分析、标注,进行存储、索引;用户可以通过提供数据特征的方式指引抽取器对符合特定标准的数据进行存储。

(3)基于用户学习的爬虫。通过记录用户的操作,标注用户感兴趣的网页和浏览模式,通过标注“有用”,对网页进行聚类,并根据相关结果建立概念图,学习用户的浏览行为。除了被动记录用户操作,还可以通过主动爬取用户日志的方式来进行学习。

如上所述,我们可以概括这些技术的特点在于:

(1)将抓取目标特定化,对抓取目标进行描述、定义;
(2)采用一定策略分析数据并过滤有用数据;
(3)存储、索引爬取的信息。

由于目前,网络经营者的服务器都存在一定的访问限制和保护措施。

在运用网络爬虫实现(1)的过程中,通常必须通过一定技术手段,如伪造IP地址或用户ID等方式获得对象页面的操作权限;
在(2)过程中,则可能涉及对用户日志的爬取和分析;
在(3)中,则可能涉及对相关用户个人信息的获取、存储和使用,以及相关泄露风险。

爬虫的真实行为边界:刑法问题

网络爬虫的真正法律边界还是规定在刑法中,因为刑法是保障法,几乎是对市场行为要求最低的法律。只要不犯罪,刑法对人们的行为绝不干涉。

网络爬虫常涉及两个罪名:

第一个罪名是,刑法第285条的“非法获取计算机信息系统罪”。这一罪名的典型案例是所谓“网络爬虫第一案”的上海某品公司案。[北京市海淀区人民法院( 2017) 京0108刑初2384 号刑事判决书]。本案中,某品公司主管人员通过技术手段,破解了北京某动公司服务器的防范措施。

随后,采用爬虫技术抓取了相关服务器中存储的数据,并自己使用;造成了北京某动公司技术服务费的损失。本案中,法院以“非法获取计算机信息系统数据罪”对被告人进行了定罪。

结合判决书,本案被告人用以破解“某动公司服务器”的手段主要有两方面:第一,伪造设备id,来通过服务器设置的身份校验;第二,伪造UA及IP,避开服务器的访问频率限制。通过上述技术手段,某品公司突破了某动公司设置的计算机系统保护措施,在未经许可非法获取了数据,构成非法获取计算机信息系统罪。

第二个罪名是,刑法第253条之一的“侵害公民个人信息罪”。这一罪名的典型案例是魏某某贩卖个人信息案[河南省济源市人民法院( 2018) 豫9001刑初503 号刑事判决书]。

本案中,被告人魏某某通过编写网络爬虫程序,绕过平台防范措施,从各大app后台爬取了含有公民姓名和电话号码的工商个体户和单位资料。随后,魏某某通过贩卖这些个人信息,非法获利55822 元。本案中,法院最终以“侵犯公民个人信息罪”对本案进行了定罪处罚。

结合判决书,魏某某的行为主要有两部分:

第一,魏某某在通过爬虫获取公民个人信息时,并未经信息主体的知情同意,并且显然违反法律、行政法规地运用爬虫技术;

第二,向他人出售个人信息。结合上述两项事实,法院认为,“其行为已构成侵犯公民个人信息罪”。

对于两个罪名的关系,应当认为是“一般犯罪”和“特殊犯罪”的法条竞合关系。

第285条规定的“非法侵入计算机信息系统罪”的行为模式有三种:

(1)违反国家规定,侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的;
(2)违反国家规定,侵入前款规定以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制,情节严重的;
(3)提供专门用于侵入、非法控制计算机信息系统的程序、工具,或者明知他人实施侵入、非法控制计算机信息系统的违法犯罪行为而为其提供程序、工具,情节严重的。

而第253条之一规定的“侵害公民个人信息罪”的行为模式同样有三种:

(1)违反国家有关规定,向他人出售或者提供公民个人信息,情节严重;
(2)违反国家有关规定,将在履行职责或者提供服务过程中获得的公民个人信息,出售或者提供给他人;
(3)窃取或者以其他方法非法获取公民个人信息。

而由于网络爬虫具有“访问(识别)—爬取—存储”的技术特点,其对信息技术系统必然具有“侵入”的特征;利用这一技术从网页或其他数据库后台取得个人信息,也通常不是在“在履行职务”过程中(已经有权限转储,就无须再通过爬虫爬取),而是通过“窃取”手段取得的。
结合“爬虫”行为符合两罪的行为模式,我们可以进一步对两罪的关系分析:刑法第285条中规定的三种行为中,前两个行为主要具有两个特征:

(1)违反国家规定;
(2)“侵入”系统。

而刑法第253条规定的第三个行为模式也具有相似特征:

(1)违反国家规定;
(2)窃取或以其他非法方法。第285条中的“侵入”数据库,也可以解释为未经同意的“窃取”数据的行为。

因而,两罪可以在“违反国家规定”和“侵入”范围内发生重合。相比之下,侵害公民个人信息罪由于是对特定的行为对象即“个人信息”数据进行的“窃取、以其他方法非法获取”。

因而,在某行为同时触犯非法侵入计算机信息系统罪和侵害公民个人信息罪时,侵害公民个人信息罪的规定作为特殊法,应当得到优先适用。

法院的判决支持了上述“侵害公民个人信息罪”的规定是特殊法的观点;在一行为同时触犯两罪名时,以“侵害公民个人信息罪”进行了定罪处罚。在上海某案件中,[上海市金山区人民法院( 2018) 沪0116刑初924 号刑事判决书]被告人马某使用自己编写的爬虫程序窃取APP 及网站的用户信息,后将包括姓名、联系方式等内容的公民个人信息约20万条出售给他人,获利2万余元。法院认为: “被告人马某违反国家相关规定,窃取公民个人信息后向他人出售,情节特别严重,其行为已构成侵犯公民个人信息罪。”

爬虫技术的“四条红线”标准

第285条中的行为类型有三方面内容:违反国家规定、侵入行为、一定的计算机信息系统。第253条之一的行为类型有两方面的内容:违反国家规定、获取(窃取)公民个人信息(并出售)。可见,两罪最重要的红线在于“违反国家规定”。我们从这条红线着手开“画”。

1.红线一:“违反国家规定”

依据《刑法》第第九十六条规定,“违反国家规定,是指违反全国人民代表大会及其常务委员会制定的法律和决定,国务院制定的行政法规、规定的行政措施、发布的决定和命令。”可见,《网络安全法》等法律、《公安机关互联网安全监督检查规定》等规定,都可以作为认定“违反国家规定”的依据。

转而依据《网络安全法》第27条:“任何个人和组织不得从事非法侵入他人网络、干.扰他人网络正常功能、窃取网络数据等危害网络安全的活动;不得提供专门用于从事侵入网络、干.扰网络正常功能及防护措施、窃取网络数据等危害网络安全活动的程序、工具;明知他人从事危害网络安全的活动的,不得为其提供技术支持、广告推广、支付结算等帮助。”

可见,只要实施了未经同意的无权限“侵入”行为,就符合本罪“违反国家规定”的要件。而行为是否“侵入”行为,必须考察两方面的要素:

(1)进入系统是否经过授权;
(2)爬虫抓取是否符合“爬虫协议”等反爬规则。

就系统授权而言,其法律依据是《网络安全法》第20 条。依据本条规定: “国家实行网络安全等级保护制度。网络运营者应当按照网络安全等级保护制度的要求,履行下列安全保护义务,保障网络免受干.扰、破坏或者未经授权的访问,防止网络数据泄露或者被窃取、篡改。”

可见,是否“侵入”标准被《网络安全法》下放至了网络运营者。根据本法,运营者必须依照等级保护制度制定自己的“保护规定”,只有有权限的访问者可以访问其数据系统。而“未经授权的访问”,即是“侵入”而“违反国家规定”。

就“爬虫协议”而言,是指数据库所有者通过位于置于系统根目录下的文件(如网页根目录下的Robots.txt),提示爬虫禁止抓取的页面信息的协议文件。这一意义上,虽然“爬虫协议”等协定只是技术规范,并不属于“国家规定”,但违反依据数据库系统的协议,爬取禁止爬取的页面信息,由于属于“侵入”,仍应认定为是违反《网络安全法》的行为;从而“违反国家规定”。
就“个人信息”的获取而言,其“违反国家规定”是指,违反《个人信息保护法( 草案) 》关于个人信息收集处理和利用的合法性原则的规定。作为具体标准,“草案”第5条规定:“……或未经信息主体知情同意,不得收集个人信息。……”确立了“知情同意”原则。对于“个人信息”的窃取而言,只要没有信息主体的明确授权同意,就属于“违反国家规定”的行为。

可见,对于“个人信息”而言,违法“红线”的范围更加宽阔:爬虫只要未经用户同意的情况下大量抓取用户的个人信息,即使没有通过上述“侵入”行为,也有可能构成非法收集个人信息的违法行为。

2. 红线二:“敏感的行为对象”

第285条规定,侵入了“国家事务、国防建设、尖端科学技术领域的计算机信息系统”时,单纯的“侵入”行为即可构成犯罪;而对“前款规定以外的计算机信息系统,或者采用其他技术手段获取该计算机信息系统中存储、处理或者传输的数据”的,则要求情节严重才构成犯罪。相比之下,第253条的规定中并没有对“个人信息”进行分类;只要对公民个人信息实施了“窃取或者以其他方法非法获取”,即可可以直接构成犯罪。

第285条的行为对象自不必说,泛指一切数据信息系统中的数据;相比之下,第253条的“个人信息”的认定较为复杂。就“个人信息”的定义而言,我国法律采取了“识别型”规定。

《网络安全法》第76条和《个人信息保护法(草案)》第3条都规定的个人信息是指“以电子或者其他形式记录的,并且能够单独或者与其他信息相结合识别自然人个人身份的各种信息,包括但不限于自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址、电话号码等。”
之所以选择“识别性”作为个人信息的认定标准,是因为从概念的内涵上看,将个人信息作为“个人隐私信息”的概念定义并不能充分包容全部值得保护的个人信息。依据王利明教授主张,个人信息具有一定的识别性,才可以反映个人的一定的特点,才能与具体的个人相互关联。[王利明:《人格权法的发展与完善-以人格尊严的保护为视角》,载《法律科学(西北政法大学学报)》2012年第 4 期]

可见,个人信息与信息隐私、个人资料、个人数据的研究对象和内容上其并没有本质上的区别,个人信息应是与具体个人相关的信息,应当包括已经识别出具体个人或者可能识别到具体个人两种情况。换言之,只要可能通过信息识别出特定个人,即属于法律保护的“个人信息”范围。
实务中,结合爬虫的代码内容,根据“(1)将抓取目标特定化,对抓取目标进行描述、定义;和(2)采用一定策略分析数据并过滤有用数据;”的过程描述,就很容易判断其对象是否包含或针对“敏感对象”。

3. 红线三:“情节严重”

这一“红线”主要不是针对爬虫行为本身,而是针对爬虫行为造成的后果进行的规定。对于第285条的“侵入计算机信息系统罪”,如果不属于红线二中的“敏感对象”,则需要符合“情节严重”标准。关于“情节严重”,《全国人民代表大会常务委员会关于维护互联网安全的决定》规定了五种情况:

(1)获取支付结算、证券交易、期货交易等网络金融服务的身份认证信息十组以上的;
(2)获取第(一)项以外的身份认证信息五百组以上的;
(3)非法控制计算机信息系统二十台以上的;
(4)违法所得五千元以上或者造成经济损失一万元以上的;
(5)其他情节严重的情形。

对于“其情节严重的情形”,通常需要结合行为的情节(如,行为次数、是否以此为业)和造成的其他危害后果(如,是否造成特别恶劣的社会影响)等因素,具体裁量决定。

4. 红线四:个人信息的“窃取”和“提供”

在刑法第285条的规定中,不要求对所获得的信息进行出售,也不存在“窃取”等问题。但在刑法第253条之一的规定中,则要求了两种特殊的行为:

(1)“窃取”;
(2)“提供”。对作为“敏感对象”的个人信息,只要是通过“窃取”或其他非法手段获得的,直接构成本罪。而如在职务行为中合法获得的,向他人“提供”的才构成犯罪。

结合“爬虫”的性质,我们认为在履行职务过程中通常不需要通过“爬虫”手段获取个人信息;因而,只要使用了“爬虫”等手段,构成“窃取”的可能性较大。例如,在浙江省某案中,[浙江省杭州市人民法院( 2018) 浙01刑终441 号刑事裁定书]被告人余某利用其在某公司任职期间的便利,通过编写爬虫爬取了公司员工个人信息攻击2万余条。法院最终判决认为,余某虽然有权访问公司系统并查看公司个人信息数据,但并无权限对员工个人信息进行提取、保存;因此不能认为余某的行为是“在履行职务期间”合法取得。而由于符合“窃取”或其他非法手段取得的要件,余某在尚未将数据信息提供给他人使用的情况下,就已经成立犯罪。

“好爬虫”的三点守则

1. 回避“违反国家规定”的两点建议

如上分析,违反国家规定的主要特征在于,违反数据库关于访问权限的规定。这一过程主要发生在(1)抓取目标的特定化阶段。在这一阶段,爬虫程序需要获取数据系统的信息并将信息进行识别和转存,直至符合停止条件。

也就是说,单纯不加限定爬取网页信息的“传统爬虫”因为不具有信息识别和协议识别能力,是很容易越过“违反规定”红线的,具有较高的违法风险。目前网络上许多“通过JAVA、Python等程序教你写爬虫”的课程,通常讲授的都是这一类型的传统爬虫。

而对于传统爬虫而言,风险的避免途径也很简单:只要我们事前确认我们对爬取对象有权限,并设置好特定的爬取对象,保证爬虫不超过权限范围地对数据进行爬爬取,就可以避免“违反国家规定”。

而对于网页分类器和抽取器的爬虫而言,面临的风险相对较大。但只要能够在抽取器、分类器中严格遵循“爬虫协议”,控制爬虫系统不爬取无权限信息,不爬取相关敏感对象信息,就可以有效避免“违反法律规定”的风险。

另外,在取得授权和经过同意的情况下爬取信息是符合法律规定。事前即通过声明操作、通知行为并要求签订协议的方式取得授权、同意的,也可以有效避免爬取信息的行为越过“违反法律规定”的红线。

例如,在公司内部使用的企业即时聊天APP中,为了满足工作需求员工通过其个人账号、密码使用手机登录后,如有工作需要,可点击查看公司员工备注的个人信息。某工程师为了实现系统功能,采用爬虫程序,循环发送访问请求,爬取到员工的姓名、员工号、手机号码、职位职级以及公司组织架构等个人信息;其作为程序管理者,本来就有权限对系统中填入的数据信息进行备份、维护;在职权范围内的行为是有权限,并经过系统使用者同意的行为;因此不能认为这种行为是“违反国家规定”的行为。

2. 回避“敏感对象”的三点建议

(1)回避敏感对象的范围

法律规定的敏感对象,无非第285条中的国家事务、国防建设、尖端科学技术领域的计算机信息系统;和第253条中依据识别性标准判定的“个人信息”。只要在设计程序时,限定爬取的信息不包含上述敏感信息,即可有效对这方面的法律风险进行回避。

(2)个人信息的“脱敏”

《个人信息保护法(草案)》第5条规定:“收集不需识别信息主体的个人信息,应当消除该信息的识别力,并不得恢复。”可见,只要在识别、转录信息的过程中对敏感信息进行“脱敏”,对个人信息消除其“识别力”,就能够实现对法律风险的回避。

但,“识别性”标准是一个需要具体、个别考察的标准,包含“直接识别”的信息,如姓名、身份证号码、电话号码等信息,也包含“间接识别”的信息,如经济、文化、社会身份等信息。结合欧盟《一般数据保护条例》的规定,“个人数据(personal data)是指与一个已被识别(identified)或者可识别(identifiable)的自然人(data subject)相连的任何信息(information)。”

我们可以明确,例如姓名、身份证号码、定位数据、在线标识等能够直接指向特定个人的信息,是“直接识别”的信息;而其他关于自然人的物理、生理、基因、精神、经济、文化或者社会身份的因素,则是能够通过其“推断出”特定自然人的信息;两种信息的范围非常宽泛,但都在法律禁止的范围内。如果爬取到相关信息,应当对相关信息进行消除或脱敏化处理。

(3)保证数据安全

《个人信息保护法(草案)》第9条规定:“信息处理主体应当采取合理的安全措施保护个人信息,防止个人信息的意外丢失、毁损,非法收集、处理、利用。”

第10条规定:“信息处理主体必须保障个人信息来源渠道和信息使用渠道清晰,确保个人信息可追溯、可异议和可纠错。

网络运营者应当采取技术措施和其他必要措施,确保其收集的个人信息安全,防止信息泄露、毁损、丢失。在发生或者可能发生个人信息泄露、毁损、丢失的情况时,应当立即采取补救措施,按照规定及时告知用户并向有关主管部门报告。”

对于敏感信息的泄露和使用等带来的后果而言,使用爬虫爬取信息的行为显然增大了前述结果实现的风险。

就此而言,使用“爬虫”爬取信息的“网络运营者”应当保证自己爬取的信息不泄露、损毁、丢失。在因为信息泄露造成损害的事实中,由于经营者在爬取信息时通常能够预见信息泄露将带来严重的损害后果,所以“结果发生”的事实并不是意外的、不可预见的事实;只有在“履行了安全保障义务”,即采取了必要的安保措施的情况下,数据泄露、损毁、丢失才是“不可预见”的损害后果,爬取行为与损害结果之间的因果关系才能因为第三人的违法行为而中断。

3. 关于“情节严重”的避坑指南

不可否认,爬虫是一种方便的工具;能大幅提高工作效率。不能使用爬虫,将给工作生活带来显而易见的不便。那么,涉及敏感内容的“爬虫”是不是就一定不能使用了呢?

答案是:No.如前文中所述,通过“合规”和“脱敏”等手段,爬虫是可能被合法地使用的;即使针对的对象可能涉及敏感信息,只要在限定爬取信息的范围不涉及敏感信息,或者对敏感信息及时“脱敏”,相信爬虫还是会经常出现在我们的工作生活中,持续性地给我们的工作生活带来便利的。

与此相对的反面的问题是,是否通过分别设置ip,少量多次地使用爬虫爬取敏感数据,只要每一个账号都保证不符合“情节严重”的要件,是否就能回避刑法处罚了呢?

答案是:不可能!依据《公安机关互联网安全监督检查规定》第十五条,公安机关开展互联网安全现场监督检查可以根据需要采取以下措施:

(1)进入营业场所、机房、工作场所;
(2)要求监督检查对象的负责人或者网络安全管理人员对监督检查事项作出说明;
(3)查阅、复制与互联网安全监督检查事项相关的信息;
(4)查看网络与信息安全保护技术措施运行情况。

第十六条:公安机关对互联网服务提供者和联网使用单位是否存在网络安全漏洞,可以开展远程检测。

第十七条:公安机关开展现场监督检查或者远程检测,可以委托具有相应技术能力的网络安全服务机构提供技术支持。

也就是说,你将在所有日志全部掌握在对方手中的前提下“玩火自焚”;并且,你的“上下家”甚至服务器的提供商将可能都是公安机关的“好帮手”。“天网恢恢,疏而不漏”,再次提醒大家千万不要铤而走险,引火烧身。

零壹智库推出“金融毛细血管系列策划”,通过系列文章、系列视频、系列报告、系列研讨会和专著,系统呈现“金融毛细血管”的新状态、新功能、新价值、新定位。
 

相关文章


用户评论

游客

自律公约

所有评论


资讯排行

  • 48h
  • 7天


专题推荐

more

第四届中国零售金融发展峰会(共15篇)

《陆家嘴》交流会第6期(共14篇)

2022第一届中国数字科技投融资峰会(共43篇)

2019年数字信用与风控年会(共15篇)



耗时 180ms