北京华网天下

“小爬虫”的“大角色”网络爬虫（Web）

2023-12-15

来源：网络整理

近年来，随着移动互联网、人工智能、大数据、云计算等新技术的快速发展和普及，人们的工作、交往、生活方式发生了深刻变化。数据已成为推动社会发展的新生产要素。增强各行各业竞争力的重要源泉。然而，在大数据采集过程中，也存在各种违法犯罪问题。网络爬虫（Web）作为一种能够快速、准确获取数据信息的网络基础技术，近年来得到了越来越多的青睐和应用。如何规范它、推动它向善，已成为当前重要的法律问题。

“小爬虫”的“大作用”

网络爬虫又称“网络蜘蛛”、“网络机器人”，是按照一定规则自动抓取网络信息的程序或脚本。在特定程序的驱动下，它可以模仿手动点击，从网站、移动应用程序、小程序或搜索引擎中检索、提取和存储数据。我们可以形象地把它们理解为一种在互联网上爬行的蜘蛛。他们通常根据程序的指令，沿着URL（网站地址）的蜘蛛丝在互联网大网上爬行，寻找并带回他们想要的东西。所需的数据资源。我们熟悉的百度、搜狗、谷歌等搜索引擎的技术核心要素之一就是“网络爬虫”。例如，百度蜘蛛通过互联网门户抓取网页，实时存储和更新索引，然后为用户提供检索服务。

自1993年第一个“ ”问世以来，网络爬虫这种便捷高效的搜索技术就引起了业界的关注。尤其是随着数据资源的爆发式增长，网络爬虫的应用场景变得更加广泛和多样，长期活跃在市场研究、产品研发、金融分析、舆情监测、风险预测等领域。近年来，一些利用爬虫技术为客户提供数据服务的互联网公司也取得了快速发展。对于个人来说，我们可以使用爬虫软件等计算机编程语言，让网络爬虫为我们服务。例如，如果你想买一套理想的房子，你可以爬取房产中介的公开信息，分析房屋数据和趋势，以辅助决策。

网络的本质和价值在于连接，其核心是数据的流动和共享。网络爬虫作为一种数据抓取的技术工具，通过爬行增强网络节点之间的联系，提升网络的整体价值。它们是构建互联网开放共享理念的重要技术基石。但鲜花和掌声并不总是网络爬虫所做的，特别是当涉及到隐私和网络安全领域时。因此，为了规范爬虫，维护网络秩序，“.txt协议”于1994年诞生。虽然这个协议只是一个“君子协定”，但它已经逐渐被视为网络空间爬虫应用公认的行业标准技术，也成为判定爬虫技术的标准。获得网站许可的主要依据。在2014年百度公司诉奇虎360违反协议案中，法院判决认为，被告未遵守原告网站协议，其行为明显不当，应当承担相应的不利后果。

技术异化：“好爬虫”和“坏爬虫”

技术本身是一种中立的工具。它可以是善的，也可以是恶的，可以是合法的，也可以是非法的。关键在于用户的选择。本来，通过协议，一方获得了数据和信息，另一方增加了流量和关注度，皆大欢喜。然而，该协议可以防范“君子”，却无法防范“小人”。有些爬虫程序不遵守规则，抓取别人不愿意共享的数据和信息。它们占用大量服务器资源，成为“网络害虫”。例如，近年来，一些大数据风控公司利用爬虫技术在互联网上非法收集用户个人信息，并将其转售给第三方以谋取经济利益。

网络爬虫设计的初衷是利用计算机技术自动索引网站、更新信息，为用户提供高效的检索服务。它具有三个基本功能：访问、下载和分析（分析和过滤数据）。目前爬行动物的作恶主要是前两种功能的异化，具体体现为三种作恶方式。

一是恶意抓取未经授权的数据。访问数据是“网络爬虫”行为的起点，也是其价值的来源。出于经济利益或其他特殊目的，一些公司或个人想方设法让网络爬虫突破道德规则和技术壁垒（网站“反爬虫”措施），抓取看不见的页面。已授权或超出授权范围的数据。例如，2018年2月至4月，马某通过编写“爬虫”程序窃取移动应用和网站约20万条用户信息，然后通过微信出售给他人，非法获利共计2.4万元。这种行为已构成侵犯公民个人信息罪。

二是恶意侵犯知识产权。一些网络爬虫在数据爬取过程中，未经版权人许可，下载、复制或传播文字、图片、视频等内容，并以此牟利。通常的形式是爬虫对有版权的文学或影视作品设置框架链接，吸引用户点击，然后通过出售广告等形式获利。例如，段某创办的“窝窝电影”网站利用爬虫技术，对多个视频网站上的500多部影视作品建立了框架链接，吸引用户点击播放，赚取了超过100万元的广告费。。这种行为违反了著作权法。

三是恶意破坏系统运行。网络爬虫访问系统时，原理与手动点击相同。因此，当大量爬虫同时访问一个网站时，就会占用大量的带宽资源，导致服务器不堪重负，甚至崩溃。业内专家表示，2024年近40%的网络流量将来自爬虫，其中20%来自恶意爬虫，且比例还将持续上升。旅游业是受灾最严重的行业。以中国铁路“网站”为例。自2011年上线以来，春运期间多次因爬虫（主要是抢票软件）攻击而无法访问。据统计，2018年春节期间，该网站单日浏览量最高峰达到813.4亿次，其中近90%是由“爬虫”造成的。

合理监管让“爬行动物”做好事、进步

据统计，截至2024年12月，我国网民规模将达到9.89亿。加强网络空间治理，保障个人信息数据安全已成为时代重大命题。

目前，我国对于网络爬虫的监管还没有专门的法律法规。主要依据《民法典》、《反不正当竞争法》、《著作权法》、《网络安全法》和《刑法》等相关法律规定。但从法律规制的效果来看，情况并不乐观。一方面，由于互联网技术的快速发展以及网络的开放性、虚拟性和移动性，加大了对违法犯罪活动的监管和提取证据的难度，特别是随着数据采集从网页扩展到移动平台如移动应用、小程序等，爬取方式较为复杂和隐蔽；另一方面，网络世界和数字服务快速发展，法律法规仍然滞后。在司法实践中，网络爬虫技术的滥用造成了法律问题上司法经验不足，相关司法解释也没有引起足够的重视，难以形成有效的规定。例如，2017年，今日头条与新浪微博就通过“微头条”业务同步“微博”上的言论内容发生纠纷。该案的实质是数据归属难以确定。但由于缺乏明确的司法解释指导，引发了实践中的广泛争议。

2024年5月，国家网信办公布了《数据安全管理办法（征求意见稿）》，对利用互联网开展数据收集、存储、传输、处理、使用等活动进行了具体规范，并预计可以控制网络爬虫。以及其他有效治理的技术行为。《办法》强调，国家坚持保障数据安全与发展并重，鼓励数据安全保护技术研发，积极促进数据资源开发利用，按照规定保障数据有序自由流动。法律。这也提醒我们，网络爬虫本质上是为了应对数字经济发展的需求而诞生的。我们不仅要从法律角度高度重视，更要把握好法律规制的边界，努力在数据利用与合理规制之间实现健康平衡，让网络技术更好地服务经济社会和人民生活。，推动数字中国建设。

（作者：韩毅、聂静，分别为中央民族大学法学院院长、教授，中央民族大学法学院犯罪防控研究中心研究员）

互联网资讯

阅读原文

下一篇：如何快速增加微信好友呢？拓宽社交圈的技巧！

上一篇：直播+短视频，影视宣发黄金洼地