爬虫合法性讨论

据说互联网上 50%以上的流量都是爬虫创造的，也许你看到很多热门数据都是爬虫所创造的，所以可以说无爬虫就无互联网的繁荣。

然而在繁荣的表象背后，也往往暗藏杀机 —— 2020 年出「程序员因写爬虫而被刑侦」的新闻消息甚嚣尘上：

大量数据公司被抓，几十家被列入调查名单
51 信用卡被查祸起爬虫抓取数据被某银行举报？
爬虫程序抓取，或构成侵权

…

引起了 爬虫合法性 的广泛讨论，而这也是所有爬虫爱好者、从业者必须了解的问题

什么是爬虫：

网络爬虫是 按照人为编写规则，自动获取互联网数据 的程序脚本。可以理解为是另外一个 你 在全年无休地访问网络、记录数据。

本质上就是 通过编写程序，模拟浏览器上网，让后让其去互联网上抓取数据 的工具

网络爬虫领域目前还属于拓荒阶段，虽然互联网世界已经通过自己的游戏规则建立起一定的道德规范(Robots 协议，全称是“网络爬虫排除标准”)，但法律部分仍在进一步建立和完善中，也就是说，现在这个领域暂时还是灰色地带。源于网络行为的匿名性和不可追踪性，处于自由发展、技术为王、规则自定的状态。

但旺盛的商业需求，吸引了大批人迅速加入到从业者行列。在拉钩上搜索：爬虫，显示有 252 条相关信息，薪资从 4k - 70 k 都有

所以网络爬虫首先是一门计算机技术，技术本身就具有中立性。爬虫本身在法律上是不被禁止的。

在正常情况下，爬虫技术只是实现遵循网站规则 人工访问网络 的自动化操作。但是也有人给爬虫装上 渗透、暴力破解、多线程 等技术，让自己的爬虫 频繁访问，故意访问非公开数据

这就带来了风险

怎么就不合法了

爬虫的本身是合法的，但是 如何使用爬虫去获取数据 的这一行为是具有风险的，我们举个生活中的例子：

爬虫挺像我们的外卖小哥，我们下单给外卖小哥，小哥到店里拿外卖送到我们手里。 OK，店家很高兴，法律也允许
唯一区别是爬虫非常听我们的话。所以我们让小哥顺便把店里的收银台也带过来。这时候店家会报警，法律会代表月亮来惩罚你

常见爬虫造成的问题有：

为了追求效率、实时性简单粗暴地开启 频繁请求、多线程爬虫，过度占用目标网站服务器资源、影响网站运营。严重者导致网站瘫痪、不能访问等。
为了满足个人目的，利用技术手段突破网站数据访问限制、窃取网站上未经许可内容。更有甚者把窃取数据散布于网上，使网站失去对自己数据的控制，造成网站所有人经济损失。
为了满足个人、企业需求，未经授权爬取具有版权内容（小说、文章、图片、影视作品）、个人信息（招聘、内容社区、购物数据），造成他人数据被不正当地复制、使用。

尤其是随着中国经济不断发展，个人信息、知识产权越来备受重视，《中华人民共和国网络安全法》不断完善：社工库销声匿迹、盗版网站关停、破解网站整改。

爬虫的本身是合法，但利用爬虫非法获取商业、个人数据也将将面临更高的处罚风险。

03.怎样的爬虫具有风险

强行突破网站设置的技术措施

由于爬虫的批量访问会给网站带来巨大的压力和负担，因此许多网站经营者会采取技术手段，来阻止爬虫获取自己网站信息。

通过 UA 识别爬虫
设置 IP 访问频率，如果超过一定频率，弹出验证码
通过并发识别爬虫
请求的时间窗口过滤统计
限制单个 ip/api token 的访问量
识别出合法爬虫
蜜罐资源等

虽然存在多种不同的技术，本质上都是网站阻止爬虫批量抓取信息的技术手段，因此从法律上并没有实质性区别。而针对该等技术手段，爬虫开发者可以通过优化自己的代码、使用 IP 池等多种方式规避上述技术措施，实现对网站信息的批量抓取和复制。

爬虫抓取的信息属于著作权法保护的作品

无论是网络上的文章、图片、用户评论，甚至网站自身的数据库，都有可能在具备独创性的情况下构成著作权法保护的作品。对于该等信息的抓取和使用是否构成著作权侵权，笔者认为：

就网页访问行为而言，由于爬虫本身仅仅是对人类访问行为的模仿，因此就访问行为而言，对于那些人工访问本身已经可以访问的信息，访问行为并不会构成侵权。但是，如果被抓取的网站本身设置了某些技术措施以保证只有特定用户才能接触该等信息，而爬虫突破了该等限制，则爬虫的访问行为有可能涉嫌破坏技术措施的违法或者侵权行为；
就数据保存行为而言，从著作权法的角度来讲，抓取行为的本质上是对信息的复制，因此该等行为有可能侵犯著作权人的复制权。当然，我国对于临时复制的行为持宽容态度。如果该等信息的保存属于
就数据提取和使用行为而言，如果爬虫控制者抓取信息后在自己的网站上公开传播抓取到的信息，则还有可能进一步侵犯信息网络传播权。

爬虫抓取的信息属于商业秘密

虽然网络上公开的信息较难构成商业秘密，但由于网络上某些信息可以通过采取技术措施使得仅有特定的用户可以接触，因此网络上的信息仍有可能具备商业秘密要求的秘密性和保密性，构成商业秘密的可能。

根据《反不正当竞争法》第九条，以不正当手段获取他人商业秘密的行为即已经构成侵犯商业秘密。而后续如果进一步利用，或者公开该等信息，则构成对他人商业秘密的披露和使用，同样构成对权利人的商业秘密的侵犯。

爬虫抓取的信息属于反不正当竞争保护的数据

在大众点评诉百度不正当竞争案件、以及新浪微博诉脉脉不正当竞争等案件中，法院都认定被告未经许可抓取、使用原告网站中的数据的行为，违反了诚实信用原则及公认的道德，损害了互联网的市场竞争秩序，损害了原告的竞争优势，从而构成不正当竞争。

爬虫不能涉及个人隐私

如果爬虫程序采集到公民的姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等个人信息，并将之用于非法途径的，则肯定构成非法获取公民个人信息的违法行为。

也就是说你爬虫爬取信息没有问题，但不能涉及到个人的隐私问题，如果涉及了并且通过非法途径收益了，那肯定是违法行为。

另外，还有下列三种情况，爬虫有可能违法，严重的甚至构成犯罪：

1.爬虫程序规避网站经营者设置的反爬虫措施或者破解服务器防抓取措施，非法获取相关信息，情节严重的，有可能构成“非法获取计算机信息系统数据罪”。
2.爬虫程序干扰被访问的网站或系统正常运营，后果严重的，触犯刑法，构成“破坏计算机信息系统罪”
3.爬虫采集的信息属于公民个人信息的，有可能构成非法获取公民个人信息的违法行为，情节严重的，有可能构成“侵犯公民个人信息罪”。

什么样的爬虫是合法的？

“法不禁止即为许可”，如果爬虫就像浏览器一样获取的是前端显示的数据（网页上的公开信息）而不是网站后台的私密敏感信息，就不太担心法律法规的约束，因为目前大数据产业链的发展速度远远超过了法律的完善程度。

最后

最近看了很多关于程序员出事的事件，东南亚程序员被打，多个大数据公司被查等等。做为一名普通的程序员，希望大家也可以多关注此类事件，从而提醒自己。

有风险的行业谨慎进入，比如现金贷、不合规的 P2P、赌博类游戏、黑五类产品的行业。如果公司安排入侵某个网站数据，或者有同事/朋友邀请泄露公司信息的都需要保持警惕，有时候一个很小的动作都有可能导致出问题。

我们绝大多数公司和个人使用的爬虫都是没有问题的，不必人人自危，只要把握住不要爬取个人信息，不要利用爬虫非法获利，不要爬取网站的付费内容，基本上不会有问题。

程序员是世界上最单纯的一批人，也是一批高智商低情商的人，工作是工作但也需要适当保持谨慎，对于一些游走在法律边缘的事情请保持距离。

敬畏法律，遵纪守法，从我做起。

爬虫合法性分析