担任爬虫工程师真的触犯法律吗?

2024-03-22
来源:网络整理

技术与管理|作者/鸽子

介绍:

“来我公司写爬虫吗?” 会坐牢的那种!”之前写过一个系列文章:(1)什么是爬虫,为什么要用爬虫?文章从客观的角度解释了爬虫。这个系列分为三个部分:

(一)什么是爬虫,为什么要使用爬虫?

(二)担任爬虫工程师真的违法吗?

(3)如何解决爬虫常见的技术难点?

那么本文主要讨论,作为爬虫工程师真的违法吗?

最近有很多朋友给我发私信询问我爬虫的具体细节,问我是否可以用更简单、生活化的方式来介绍爬虫,而不需要太技术化。 好的,我们开始展示吧。

所谓爬虫,从技术原理上来说,就是一种高效的下载工具,可以将网页批量下载到本地计算机并保留备份。 如果结合其他一些工具和算法,可以实现收集同一类型的网页并重复执行相同的动作。

简单来说,它用技术和算法来模拟一个人在互联网上的行为,像一个人一样点击网页、关注、转发等,但与真人相比,他的效率却异常高。

除了抢票软件的具体表现外,爬虫还有“僵尸粉丝军”、“返利电商低价”、“社区批量抓取数据和内容”等多种表现形式。

1)僵尸粉丝大军

举个简单的例子,目前流行的微博、抖音、快手等软件、内容创作媒体中,存在着大量的“僵尸粉丝”。

用户名里有一长串数字,没有头像,却疯狂转发一些热门评论,或者疯狂点赞、转发一条微博,但点击首页却没有一条微博帖子。 这些没有头像、以数字命名的微博粉丝就是僵尸粉丝。

他们准时上班,找到某人的微博,疯狂点赞、留言、转发、关注,营造出火热的假象。

僵尸粉的崛起也与爬虫密不可分。

正如我们所说,爬虫模仿真人的行为,但它们只能模仿最简单的行为,比如跟随预先安排的文案进行评论,或者点赞、转发和关注。 因此,如果只看数据而不仔细分析,往往会掩盖真相。

许多丧尸粉丝夜以继日地努力,为微博活跃数据添加点赞、评论、关注,为微博活跃数据做出贡献。 不过,不像微博,买票就可以赚钱,你增加流量有什么用呢?

很有用啊

你是一个可爱的新用户,用爬虫骗了10万粉丝,准时互动、点赞、评论。

广告商很高兴看到这些数据,并向您投放广告以增加注册数量。 但这些都是对爬行动物的虚假描述。 如果没有真人怎么办?

没关系,找不到人也没关系,有爬虫。 你有10万个爬虫账号,你可以连1万个,点击注册账号,往上刷数据,躺着就能赚钱。

不管发生什么情况,如果你有一个看上去很热门的账户,你就可以趁机尽快把它卖掉,这也会给你带来不菲的收入。 最后,你还可以通过购买粉末清洁工具来赚另一笔钱。

别人一石二鸟,你一石三鸟。 我真的很佩服你。

而且,对于这件事情,官方其实也心知肚明,只是睁一只眼闭一只眼而已。 毕竟有了僵尸粉丝,数据就好多了,何乐而不为呢?

2)返利电商提供低价

不知道大家还记不记得,有一类网站叫“聚合电商”、“返利平台”、“粉象生活”等。

这些网站也是爬虫工具的受益者,其基本原理与搜索引擎类似。 搜索引擎抓取网页并将其聚合在一起进行显示。 返利网站把产品爬出来,放在一起展示,并对不同网站上的产品进行价格比较。

当然,淘宝和京东都拒绝了此事。 毕竟谁也不能保证自己的每一款产品都是全网最低价。 如果全部由返利网站显示出来,那岂不是亏了? 然而,对于商店来说,情况可能有所不同。 毕竟,多一个渠道就意味着更多的销量,而且无论在哪里销售都没有关系。

这类网站的原理与搜索引擎类似,盈利模式也类似。 一方面,他们经常设立竞价排名,花更多的钱来获得更好的广告位,增加销量。 如果你对竞价排名感到愧疚,还可以设立独立的广告位,每次点击转账一次。

然而,最大的收入来自于做中间商。 店铺每进行一笔交易,店铺都会给平台一些返利。

对于消费者来说,这或许不是一件坏事,但对于电商平台来说,却未必是一件好事。 毕竟这些店是靠着努力在网上卖货的,无缘无故就被你攻陷了。 ,最后钱都被你赚走了,你心情一定很不好。

3)社区批量抓取数据和内容

还有一种类型的网站,就是马蜂窝类型的网站。

事实上,很多社区产品中的大部分内容都是由爬虫爬取的。 除了马蜂窝这样的网站,很多问答、图书馆或者招聘网站都是通过爬虫获取内容的。

毕竟,好的内容会带来自己的流量。 当你有了足够多的优质内容,你也就有了足够的流量,变现就很容易了。 对此,被抓取的网站有时会视而不见,睁一只眼闭一只眼,不予理睬。 这完全取决于他们是否有这项业务。

最典型的例子就是。 2017年,将一家名为HiQ的数据分析公司告上法庭,因为它认为这家公司捕获了用户的就业状态信息,并将其提供给另外两台机器。 学会分析员工跳槽倾向和专业技能的公司。 结果是,即使打着保护用户隐私的旗号,仍然败诉,并被联邦法院要求开放其数据接口。

原因是HiQ已经用这种方式爬取的数据五年了。 一直都知道这一点,也参加过HiQ组织的论坛峰会。 现在推出了类似HiQ的业务,那就断绝了HiQ的未来。

这和大多数网站对于爬虫的态度非常相似。 当你的规模不大,或者我还没有准备好做你的业务时,我可以纵容你爬取我的信息。 从某种程度上来说,这个爬取过程还是可以提高我的收益的。

但一旦超出我的承受范围,我会采取必要的措施进行反击。

以上是爬虫的一些常见技巧。 说实话,这些只是他们的冰山一角。 爬虫在整个互联网上的应用远远超出你的想象。

政府网站、搜索引擎、地图、自媒体等一系列热门应用背后都有爬虫。 这就是为什么我们说没有爬虫就没有互联网。

至此,我们再次解释了什么是爬虫。 我们回到主题吧。 接下来就是本文的主题了。

(二)担任爬虫工程师真的违法吗?

为此,我咨询了一位北京大学法学博士的朋友,从他那里找到了相关的法律依据,包括《网络安全法》、《数据安全管理办法(征求意见稿)》、《反不正当竞争法》等。法律”。

我打开《网络安全法》,仔细阅读了半个小时。 我没有发现其中有任何条款说“披露爬虫网络信息是违法的”。 于是我继续查找,找到了几个司法解释:

第四十一条

网络运营者收集、使用个人信息,应当遵循合法、正当、必要的原则,公开收集、使用规则,明确收集、使用信息的目的、方式和范围,并取得本人同意。正在被收集。 网络运营者不得收集与其提供的服务无关的个人信息,不得违反法律、行政法规的规定和当事人的协议收集、使用个人信息,并按照法律、行政法规以及与用户的协议。 个人信息。

国家网信办2019年5月28日发布的《数据安全管理办法(征求意见稿)》中,拟通过行政法规限制爬虫的使用:

第十六条

网络运营者采用自动化方式访问、收集网站数据,不得妨碍网站的正常运行; 此类行为严重影响网站的运营。 自动访问采集流量超过网站日均流量三分之一,网站请求停止自动访问采集的,应当停止。

你会发现,目前并没有法律明确规定爬虫的“技术”是否合法,而是利用爬虫获取数据的“行为”是否合法。

即使是之前饱受诟病的马蜂窝,也可以说它侵犯了版权。 但如果将自己定位为平台,那么将其他网站的内容放到马蜂窝的行为实际上是用户发起的,与平台无关。

毕竟,正如我们所说,爬虫只是模仿人类的行为。 您想因为一个人或一群人的点击次数过多而惩罚他们吗? 因此,爬虫本身并不违法。

然而,如何使用爬虫获得的数据和信息大多是明确定义的。 例如,如果你爬出别人有明确版权的文章或图片,并将其用于商业目的,这无疑是一种侵权。 再比如,你抓取个人隐私数据并公开出售是违法的。

这就像摄影一样。 大家都可以拍照,技术人员也可以用无人机拍满天。 但如果你拍摄别人的隐私,在禁区拍照,或者偷拍盗用别人的作品,对不起,这是违法的。

经过仔细探索,我总结出以下几点:

遵守协议,但存在与否并不代表你可以随便爬取。 可以看下面大众点评百度案例; 限制您的爬虫行为,禁止请求频率接近DDOS。 一旦服务器瘫痪,就相当于受到网络攻击; 对于明显的反爬行,或者正常情况下无法到达的页面不能强行突破,否则属于行为; 最后,仔细检查您爬取的内容。 以下为不得触碰的红线(包括但不限于):

新三板上市公司涉嫌窃取个人信息30亿条,非法获利超千万元

竞争灼伤·深圳市中级人民法院| 利用网络爬虫技术抓取他人数据的合法性判定

大众点评向百度索赔9000万,法院判其赔偿300万

我们应该如何看待爬虫?

对于个人来说,爬虫作为高效的信息和数据获取工具,一定是互联网用户的必备技能。

它将大大节省您的时间,并大大提高您的工作效率。 举个最简单的例子,作为一个新媒体从业者,我会通过爬虫爬取一些我喜欢的公众号文章,并进行分析和比较。 这比一张一张地阅读要高效得多。 例如,在竞品分析、行业研究、人群画像等方面,通过爬虫,你可以在短短几分钟内爬取所有某类数据,然后进行有针对性的数据分析,以优化你的写作。

对于企业来说,爬虫的应用空间就更大了。

热门的今日头条就是一个典型案例。 不那么严格地说,今日头条的核心就是做了三件事:

爬取互联网上的所有信息文章,以及社交网站上的用户数据。 对这些数据进行分类和标记,使其一一对应。 将具有相似标签的文章与用户匹配。

通过搜索引擎的高效应用和个性化推荐功能,将传统的人找信息分发模式转变为信息找人分发模式,成为独角兽,目前正在与BAT争夺市场。 你可能做不到下一个今日头条,但拥有更多的数据可以帮助你完成比你想象的更多的事情。 然而,技术虽然有价值,但如何利用技术却成了新的问题。

一开始,整个互联网世界还是一个野蛮的地方。 大家都在争夺地盘。 如果你不做,别人就会做。 生存是第一位的。 从原则上来说,这是不可原谅的,但从情感上来说,这是可以理解的。 然而,当你已经成为一家大而成熟的公司时,你就必须承担必要的责任和底线。

很多时候,应用爬虫实际上是一场零和游戏。 一方的利益就意味着另一方的损失。 使用抢票软件的人会给不使用抢票软件的人带来损失; 那些用僵尸画卷的人,被抢的是那些努力创作内容的媒体人的空间; 返利平台直接拦截电商。 这场比赛很难说谁对谁错,谁好谁坏。 但是,一旦我们的竞争并没有让大家都变得更好,或者是一方付出了更高的成本才达到的,这真的合理吗?

对于每一个从事互联网行业产品或运营的人来说,工作最大的意义在于“我们正在用一些力所能及的方法和工具,让世界一点一点变得更加完整和美好”。 可能性。

而爬虫在这个过程中也应该能够使用到一种工具和方法。 利用这个强大的工具让我们自己和我们生活的环境变得更好,不是也很有价值吗?

最后,如果你对爬虫感到好奇,想尝试一下,不妨关注“架构漫谈”,与你分享更多爬虫知识、爬虫热点、应用架构技术。

我是格格,一名互联网从业者。 现在我是阿里巴巴集团新零售事业部的技术专家。 我想在这里做广告。 如果你也愿意在阿里巴巴创业,不妨私信我,把简历发给我。 我们一起工作吧。 共同学习,共同进步。

博主是一名非专业背景的互联网技术从业者。 现任阿里巴巴集团技术专家; 曾任同程艺龙高级研发工程师; 热爱学习和分享,立志成为终身学习者。 该公众号主要分享管理、技术、成长、认知、产品及相关信息。 专注于不迷路。

分享