作者留言
最近比较忙,用微信、QQ咨询的人也比较多。 建议大家尝试在评论区留言。 如果着急的话,加微信,把问题解释清楚。 有时间的话我一定会回复的!
首先,恭喜您看到这个项目。 在开发这个项目之前,我通过百度和网络搜索了很多微信公众号爬虫相关的项目。 目前微信公众号的爬取方式主要有三种,下面分别介绍。 我尝试了前两种方法,但是第三种方法太麻烦,花费了太多的时间和精力,所以我放弃了,采用了第二种方法,这是最划算的。 与其他开源项目相比,该项目最大的优势就是功能相对较多。 改进了最近推送的一些代码。 随着近两年微信公众号的变化,大部分近期未更新的爬虫开源项目都无法正常运行。 开发和维护并不容易。 如果您觉得有用,请点赞并收藏。 这也是我继续下去的动力。
我的博客JAVA OPC UA专栏:AI绘画| :java高级技术专栏:java自动化爬虫:java推荐算法专栏:Java视频图像处理专栏:项目背景
闲暇之余写了一个简单的DEMO,以微信公众号爬虫为主要功能,普通网络爬虫、浏览器控制、邮件群发功能为辅。 功能简单,给开发者巨大的学习和表现空间。 对于有一定boot和HTML经验的人来说,上手容易,学习成本低。
特征
爬虫项目、微信公众号文章爬虫、网站文章爬虫、群发邮件系统
项目结构
单一项目架构
已知的微信公众号爬取方式有以下三种:
第一个:我用搜狗微信公众号搜索,只能得到前10条; (亲自测试了一下,很多公众号连近10条都拿不到,所以放弃)
第二种:用手机或手机抓包,从接入链路获取。 发现虽然值在html页面中,但是只有抓取到的数据包数据才包含有效值,直接访问是空的,而且是时间敏感的。 这样每次都抓包很麻烦。
第三种:这是利用公众号搜索公众号的方法。 虽然慢了点,但是方便多了。 (每天请求数量有限,大约100个)
条款和条件
方案原理:
通过登录获取并下载,然后自动抓取并下载
使用前提条件:
1、修改项目中的驱动路径为自己本地的
2.如果您有自己的公众号,如果没有,可以申请微信公众号(个人订阅版)()
3.修改文件中的账号和密码
安装教程 git下载源码 idea-java运行说明 core core包 java main方法 run boot 主类运行函数介绍
简单爬虫系统和邮件系统 1.爬虫分为微信公众号爬虫和普通网络爬虫(主要通过and实现) 2.Java邮箱发送系统,可以实现群发邮件(主要通过.mail实现)
系统运行视图
可视化页面
常见问题
启动 时需要它。 两者之间的版本需要匹配,否则会出现类似如下的错误:
Only local connections are allowed. org.openqa.selenium.WebDriverException: unknown error: cannot find Chrome binary (Driver info: chromedriver=2.35.528161 (5b82f2d2aae0ca24b877009200ced9065a772e73),platform=Windows NT 10.0.18363 x86_64) (WARNING: The server did not provide any stacktrace information) Command duration or timeout: 76 milliseconds Build info: version: '3.141.59', revision: 'e82be7d358', time: '2018-11-14T08:17:03' System info: host: 'WIN-9T6EKDMSTI5', ip: '172.16.10.8', os.name: 'Windows 10', os.arch: 'amd64', os.version: '10.0', java.version: '1.8.0_221' Driver info: driver.version: ChromeDriver at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method) at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:62)
解决办法,看这篇文章
浏览器版本与驱动兼容版本对照表
爬虫教学专栏
自动化爬虫