北京华网天下

使用XML和正则表达式抓取论坛与CMS内容的Java工具指南

2024-12-26

来源：网络整理

这个项目还很不成熟，但是功能已经基本完成了。用户需要熟悉 XML 和正则表达式。目前该工具可以用于抓取各种论坛、贴吧、各种CMS系统。通过此工具可以轻松捕获诸如！、论坛和博客之类的文章。爬网定义完全采用 XML 格式，适合 Java 开发人员。

使用方法：

下载右边的.war包并导入进去。

使用 /sql 下的 wcc.sql 文件创建示例数据库。

修改src包下wcc.core的.txt，将用户名和密码设置为自己的用户名和密码。

然后运行它。运行时，会出现在控制台中。如果没有参数，将执行默认的.xml配置文件。当有参数时，名称为配置文件名。

系统自带了3个例子，分别是抓取百度知道的.xml、抓取我的博客的.xml、抓取论坛内容的bbs.xml。

特点：通过 XML 配置文件进行高度可定制和可扩展

12.

它是一个基于微内核+插件架构的网络蜘蛛。其目标是通过简单的方法捕获复杂的目标网页信息并将其解析为它需要的业务数据。

如何使用？

首先，确定你的目标网站和目标网页（即你想要获取数据的某类网页，比如网易新闻的新闻页面）

然后，打开目标页面，分析该页面的HTML结构，并获取您想要的数据。有关如何获取的详细信息，请参阅下文。

最后在一个xml配置文件中填写参数并运行即可！

特点：灵活、扩展性强，微内核+插件架构，无需编写一行代码，通过简单配置即可完成数据采集

13.

是一个无需配置、易于二次开发的爬虫框架。它提供了简单灵活的API，只需要少量的代码就可以实现爬虫。

采用完全模块化设计，功能覆盖整个爬虫生命周期（链接提取、页面下载、内容提取、持久化），支持多线程爬取、分布式爬取，支持自动重试、定制UA等。功能。

包含强大的页面提取功能，开发者可以轻松使用CSS、正则表达式提取链接和内容，并支持多种选择器链调用。

使用文档：

查看源代码：

特点：功能覆盖整个爬虫生命周期，使用正则表达式提取链接和内容。

注：这是黄一华贡献的国产开源软件

14.网络-

Web-是一个Java开源Web数据提取工具。它能够收集指定的网页并从这些页面中提取有用的数据。 Web——主要使用XSLT、正则表达式等技术来实现text/xml操作。

实现原理是根据预定义的配置文件获取页面的所有内容（关于内容，本博客有的文章已经介绍过），然后利用、、正则表达式等技术实现text/xml内容过滤操作。，选择准确的数据。近两年流行的垂直搜索（如酷讯等）也是采用类似原理实现的。对于Web应用程序来说，关键是理解和定义配置文件，剩下的就是考虑如何处理数据的Java代码。当然，在爬虫启动之前，也可以将Java变量填充到配置文件中，实现动态配置。

特点：使用XSLT、正则表达式等技术操作Text或XML，具有可视化界面

15.

它是Java类包和网络爬虫的交互式开发环境。网络爬虫（也称为机器人或蜘蛛）是自动浏览和处理网页的程序。它由两部分组成：爬虫工作平台和类包。

许可协议：

开发语言：Java

特点：由爬虫工作平台和类包两部分组成

16. 亚西

YaCy是一个基于p2p的分布式网络搜索引擎。它也是一个Http缓存代理服务器。该项目是一种基于p2p构建Web索引网络的新方式。它可以搜索您自己的或全局索引，或者您自己的网页或启动分布式等。

特点：基于P2P的分布式Web搜索引擎

爬虫

17.

它是一个简单的信息收集工具，可以帮助您查找子域名、区域、收集电子邮件地址并用于查找人际关系等。使用写作、支持和操作系统。

功能：查找子域名、收集电子邮件地址、查找关系等功能

18.

这是一个非常简单易用的抓取工具。一个简单、实用、高效的网络爬虫模块，支持爬取渲染页面。

特点：简单、轻量、高效的网络爬虫框架

注：这个软件也是中国人打开的

下载：＃

19.

淘宝客源码开源_淘宝客小程序开发源码_淘宝程序源码开发店铺

它是一套基于异步处理框架，纯粹实现的爬虫框架。用户只需要定制和开发几个模块就可以轻松实现一个爬虫，用于爬取网页内容和各种图像。非常方便~

源代码：

特点：基于异步处理框架，文档齐全

C++爬虫

20.

是一个又快又高的高

严格来说，它只能是一个系统框架，没有具体的要求。目前只能提取URL、URL去重、异步DNS解析、队列任务、支持N机分布式下载、支持网站定向下载（需要.ini）。

特点及用途：

工作流程：

许可证: BSD

开发语言：C/C++

操作系统：

特点：支持多机分布式下载，支持网站定向下载

21，

它是法国年轻人Sé独立开发的一款开源网络爬虫/网络蜘蛛。目的是能够跟踪页面的URL进行扩展抓取，最终为搜索引擎提供广泛的数据源。它只是一个爬虫，也就是说它只爬取网页，其他的一切都由用户来做。另外，也没有提供如何存储到数据库以及创建索引。一个简单的爬虫每天可以检索500万个网页。

使用它，我们可以轻松获取/确定单个网站的所有链接，甚至镜像一个网站；我们还可以用它来创建一个URL列表组，例如获取所有网页的XML链接后，我们就可以获取URL了。或者mp3，或者定制，可以作为搜索引擎的信息源。

特点：高性能爬虫软件，只负责爬取，不解析

22，

它是一款速度优化且高度可配置的爬虫软件，适用于 WEB、FTP 和本地文件系统。

特点：超速优化，能够爬取WEB、FTP和本地文件系统

源代码：

C# 爬虫

23，

它是一个开源的、C#开发的网络爬虫程序。

特征：

许可协议：

开发语言：C#

操作系统：

项目主页：

特点：统计信息、执行过程可视化

24，

国内首个针对微博数据的爬虫程序！前身为“新浪微博爬虫”。

登录后，您可以指定用户为起点，以用户的关注者和粉丝为线索，通过人脉关系收集用户的基本信息、微博数据、评论数据。

本应用获得的数据可作为科学研究、新浪微博相关研发等的数据支撑，但请勿用于商业用途。该应用基于.NET2.0框架，需要SQL作为后端数据库，并为SQL提供数据库脚本文件。

另外，由于新浪微博API的限制，爬取的数据可能不够完整（如粉丝数量限制、微博数量限制等）

本程序的版权归作者所有。您可以自由地：复制、分发、展示和表演当前作品以及创作衍生作品。您不得将当前作品用于商业目的。

5.x版本已经发布！该版本共有6个后台工作线程：爬取用户基本信息的机器人、爬取用户关系的机器人、爬取用户标签的机器人、爬取微博内容的机器人、爬取微博评论的机器人和爬取微博评论的机器人。调整请求。机器人出现的频率。更好的表现！最大限度发挥爬虫的潜力！从目前的测试结果来看，个人使用足够了。

该程序的特点：

6 个后台工作线程，最大限度地发挥爬虫性能潜力！

界面提供参数设置，灵活方便

放弃app.文件，自行实现配置信息加密存储，保护数据库账号信息

自动调整请求频率，防止超过限制，避免速度过慢降低效率。

随意控制爬虫，可以随时暂停、继续、停止爬虫

良好的用户体验

许可协议：

开发语言：C#.NET

操作系统：

25.

淘宝程序源码开发店铺_淘宝客小程序开发源码_淘宝客源码开源

它是一个以递归树为模型的多线程网络爬虫程序，支持text/html资源的获取。可设置抓取深度、最大下载字节限制，支持gzip解码，支持gbk()和utf8编码的资源；存储在数据文件中。

源代码中的TODO:标记描述了未完成的功能，希望您能提交您的代码。

源代码：

特点：基于递归树的多线程网络爬虫，支持GBK()和utf8编码的资源，并使用存储的数据

26. 网络

mart and Web是一个网络爬虫框架。综合支持。爬虫可以从单个链接或链接数组开始，提供两种遍历模式：最大迭代和最大深度。可以设置过滤器来限制爬行的链接。默认提供三个过滤器，三个。这三个过滤器可以通过 AND、OR 和 NOT 进行组合。可以在解析过程或页面加载之前和之后添加侦听器。介绍内容来自Open-Open

特点：多线程，支持抓取PDF/DOC等。文档来源

27. 互联网矿工

网站数据采集软件网络矿工采集器（原配）

配货网站数据采集软件是一款基于.Net平台的开源软件，也是网站数据采集软件类型中唯一的开源软件。虽然是开源的，但是并不影响软件的功能，甚至比一些商业软件还要丰富。

特点：功能丰富，不亚于商业软件

PHP爬虫

28.

是一个开源多线程网络（：机器人，：爬虫）和搜索引擎，包含许多有趣的功能。

特点：开源多线程网络爬虫，具有许多有趣的功能

29.

它是一个使用PHP开发的网络爬虫和搜索引擎。通过索引动态和静态页面来构建词汇表。当搜索查询时，它会按照一定的排序规则显示包含关键字的搜索结果页面。包含模板系统以及索引 PDF、Word 和文档的功能。适合更专业、更深入的个性化搜索引擎。用它来构建某个领域的垂直搜索引擎是最好的选择。

演示：