新技术发展下网络爬虫受青睐 其规制成重要法治议题

2025-06-06
来源:万象资讯

【资政场】

韩轶,中央民族大学法学院院长兼教授,聂晶,该学院犯罪防控研究中心的研究员。

近年来,移动互联、人工智能、大数据、云计算等新兴技术的迅猛发展和广泛应用,极大地改变了人们的工作模式、社交习惯以及生活方式。在这个过程中,数据已经演变成为推动社会进步的关键生产要素,以及各行各业提升竞争力的核心动力。然而,在大数据的收集过程中,也暴露出了诸多违法犯罪现象。网络爬虫,即Web爬虫,这项技术凭借其高效且精确的数据采集能力,近年来受到了广泛的关注与运用。探讨如何对其进行有效管理,引导其向正面方向发展,已成为当前法治领域亟待解决的问题。

“小爬虫”的“大角色”

robots协议与网站建设_大数据时代网络爬虫应用_网络爬虫法治规制

网络爬虫,亦称作“网页蜘蛛”或“网络机器人”,此类程序或脚本遵循特定规则,自动搜集网络信息。在特定程序的操控下,它们能够模拟人工操作,从网站、手机应用、小程序以及搜索引擎中搜索、提取并保存数据。我们可以将它们比喻为在网络世界中穿梭的蜘蛛,它们遵循程序指令,通常沿着网址这根线索,在互联网这个庞大的网络中四处游走,搜集并带回所需的数据信息。我们熟知的百度、搜狗、谷歌等搜索引擎,其技术构成要素之一便是“网络爬虫”。百度搜索引擎的爬虫程序,借助网络端口搜集网页内容,实时保存并刷新索引信息,进而向用户供应搜索服务。

自1993年首个网络爬虫软件——“互联网漫游者”问世以来,这种便捷且高效的搜索工具便引起了业界的广泛关注。尤其是伴随着数据资源的迅猛增长,网络爬虫的应用范围也在不断扩大,多元化的应用场景逐渐显现,它已长期在市场调研、产品开发、金融研究、舆情监测以及风险预测等多个领域活跃。近年来,众多互联网企业凭借爬虫技术向客户提供服务,实现了迅猛增长。对于个人用户来说,我们能够借助爬虫软件以及计算机编程语言,使网络爬虫为我们所用。比如,若想购买心仪的住宅,便可通过爬取房产中介的公开资料,对房源信息和市场走向进行深入分析,从而为购房决策提供有力支持。

网络的精髓和意义体现在其连接性上,其核心功能在于促进数据的流转与交流。网络爬虫这一数据采集的技术手段,通过其爬行行为加强了网络节点之间的联系,从而提高了网络的整体效用,成为了构建互联网开放与共享理念的关键技术支撑。然而,网络爬虫的运作并非总是一帆风顺,尤其是在触及隐私领域和网络安全方面,常常会遭遇挑战。所以,为了确保爬虫行为规范有序,维护网络环境的和谐,1994年推出了“.txt协议”。尽管这仅是一个非正式的“君子协议”,然而它逐渐被公认为网络爬虫技术应用的行业标准,并且成为了判断爬取活动是否得到网站授权的关键参考。2014年,百度公司对奇虎360提起诉讼,指控其违反了双方之间的协议。法院在作出判决时指出,被告未能履行原告网站所规定的协议条款,其所作所为显然不妥,理应承担由此产生的不利后果。

科技异化:“好爬虫”和“坏爬虫”

大数据时代网络爬虫应用_网络爬虫法治规制_robots协议与网站建设

科技本质上是一种中立的手段,其用途好坏、合法与否,全取决于使用者的决定。在以往,双方通过协议达成合作,一方获取了数据和信息,另一方则获得了流量和关注,皆大欢喜。然而,协议虽能约束君子,却难以防范小人。部分爬虫程序不遵循规则,随意爬取他人不愿公开的数据信息,同时大量占用服务器资源,成为网络中的“害虫”。近期,部分大数据风险控制企业运用爬虫手段,擅自搜集网民的个人资料,再将这些信息出售给其他机构,以此手段获取经济收益。

网络爬虫的设立初衷在于运用计算机技术,实现网站内容的自动索引编纂和信息更新,从而为用户带来便捷的检索体验。它具备访问、下载以及解析(即对数据进行分析和筛选)三项基本功能。然而,当前爬虫的恶意行为主要表现为对前两种功能的滥用,具体可分为三种不同的恶意行为模式。

首先,恶意抓取未经授权的数据行为普遍存在。访问数据是网络爬虫行动的出发点,也是其价值的根本所在。然而,一些企业或个人出于经济利益或其他特定目的,千方百计地让网络爬虫突破道德规范和网站采取的反爬虫技术措施,以获取未经授权或超出授权范围的数据。在2018年2月至4月期间,马某利用“爬虫”软件非法获取了大约20万条手机应用和网站的用户数据,随后他通过微信将这些信息转手他人,从中非法赚取了2.4万元,此行为已构成侵犯公民个人信息罪。

二是涉及对知识产权的恶意侵害。部分网络爬虫在搜集数据时,未获得版权所有者的授权,擅自下载、复制及散布文字、图片、视频等资料,并借此获取利益。常见做法是,这些爬虫会对享有版权的文学作品、影视作品等设立带有链接的框标,以吸引点击,随后通过销售广告等方式实现盈利。段某创办的“窝窝电影”平台,通过运用爬虫技术,对超过500部影视作品在多家视频网站上设置了框式链接,以此吸引用户点击播放,进而获取了超过100万元的广告收益,此行为明显违反了著作权相关法律法规。

分享