写网络爬虫的法律边界

Python爬虫 2018-12-20 17:14:37 阅读(15154) 评论(4)

来交代一下,你抓了多少数据,在哪抓的,干什么用了,看够在里面待几年。

从去年开始我看到好几起因为抓取数据而遭遇诉讼,有的锒铛入狱,有的被处罚金,从案件的模糊描述来看,我看得后背发凉,似乎每个爬虫选手都有被KO的风险。

这几个月也停止了几个抓取工作,把有关的法律和新闻认真看了几遍,写了如下文章。

监狱

PS:这里讨论的是网络爬虫技术本身,爬虫技术的手法可以用来抓群数据,还可以做其它事情,比如登录社交账号自动发帖,比如刷搜索排名等等。

《刑法》对网络爬虫的定罪依据

《刑法》第 285 条,非法获取计算机信息系统数据罪。

获取该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制,

处三年以下有期徒刑或者拘役,并处或者单处罚金; 最高处七年有期徒刑并处罚金。

《刑法》第285条是对爬取数据的主要定罪依据,有兴趣可以去查下中华人民共和国刑法。

定罪的几个案例:

从已有案例来看有以下几种情况:
1.数据拥有者有证据能够举证你的数据是抓取来的。如下,今日头条对起诉上海晟品法院宣判结果。

法院文书

法院文书判决结果
图片文字来自中国判决文书网。

从文书描述来看,修改UA,修改device id,绕开网站访问频率控制这是写爬虫的基本,这些手法反而成为了获罪的依据。

2.用户社交数据,尤其是用户隐私相关。

微博脉脉判决文书
微博脉脉判决文书结果
图片文字来自新浪网

3.扰乱对方网站经营规则,且牟利。比如这个:

爬虫刷搜索排名判决文书
爬虫刷搜索排名判决结果
图片文字来自中国永嘉公号

图上描述做搜索引擎排名的技术,其实就是利用爬虫技术规模化的访问网页。

在我们通常的认知里,因为互联网推崇分享精神,所以认为只要是网络公开数据就可以抓取,但是通过上面的案例来看,

有几个禁忌,抓取的数据最好不要直接商用,涉及社交信息/用户信息要谨慎, 老板交代你抓取敏感任务时,让老板先看下刑法第285条。

这不代表个人行为就没事,只是还没入他们的法眼。

在数据抓取这方面,美国也有一个判决案例,美国一家小公司向法院起诉Linkedin,理由是Linkedin通过技术手段阻止他抓取Linkedin上的数据,
而且法院判定这家公司胜诉,裁定Linkedin不准屏蔽这家公司的抓取行为。

目前我国法律是偏向数据拥有者的,如果数据拥有着者有证据向法院起诉的话,抓取数据的一方多半会败诉。

另外在抓取过程中,如果pj/反编译对方客户端、软件,pj加密算法,

比如你抓某APP数据,去反编译他的客户端,这绝对是犯法,这是破坏计算机信息系统罪。

爬虫有风险,开爬要谨慎。

更新了一篇 ,抓取和使用数据的法律风险

猿人学banner宣传图

我的公众号:猿人学 Python 上会分享更多心得体会,敬请关注。

***版权申明:若没有特殊说明,文章皆是猿人学 yuanrenxue.con 原创,没有猿人学授权,请勿以任何形式转载。***

说点什么吧...

  1. 1楼
    ppp 5年前 (2019-04-22)

    请问博主。。之前您介绍的抓取新浪微博用户数据。结构化。做导航站。是不是违法了😂

    • 回复
      王平 5年前 (2019-04-22)
      回复 @ppp :有可能被微博控诉噢,如果每个页面都提供微博的跳转地址的话,在法理上还有婉转余地,这样至少你是把流量回导给微博
  2. 2楼
    ycrossx 5年前 (2019-10-25)

    所以爬虫的风险如何规避,还想向博主讨教一下,若博主有经验,期望博主更新一篇这样的文章,期待哦。。。。

    • 回复
      王平 5年前 (2019-10-27)
      回复 @ycrossx :爬虫问题主要出在商业竞争(知识产权)和数据隐私风险上,注意下这个风险就可控