本文的目标:依然还是非编码手段,从0到1实现公众号文章爬虫。
这两天朋友圈都被Sora刷屏了,收集了一些Sora相关的资料,有需要也可以加我微信 larmiFu,有需要可以加我好友,或者关注公众号【屁股拉垮】回复AI获取。
前言
先分享一张很好玩的图。
初看似乎有那么些道理,但是对于某些行业某些岗位,业务上的一些小环节其实会显得异常重要,特别是在内容创作、数据分析、设计、编程等方面。以下是一些具体的应用实例:
这些工具和方法的应用不仅提高了工作效率,还可能改变工作流程,创造新的工作机会,并推动创新。然而,同时也需要注意,AIGC工具的使用需要结合人类的专业知识和判断,以确保生成的内容质量和适用性。
爬虫需求
今天在一个群里看到这样一条信息。
由于系统的封闭性,这类爬虫需求,Coze是无法胜任的。懂点技术的可以自己写,或者github上找找。
但对于不懂技术的,有没有曲线救国的方式,其实是有的。用成熟的RPA工具。
RPA
RPA(Robotic Process Automation)是一种软件自动化技术,它使用虚拟“机器人”来执行重复性、规则性强的业务流程任务,从而提高效率、减少错误,并让员工专注于更有价值的工作。RPA机器人可以模拟人类操作电脑,如点击鼠标、输入数据等,无需改变现有系统即可实现自动化。
由于我使用mac,这里用影刀完成整个需求。
基础的影刀操作可以看b站的影刀官方教程:
https://space.bilibili.com/393215006/
从0到1
先看整个流程,只有14条指令,简单讲解一下。
#1 获取窗口对象
这里是指获取微信公众号的主页
#2 循环相似元素
捕获文章的标题链接
#3 点击元素
依次点击每条文章,打开新的窗口
#4 获取新打开的窗口
#5#6 这两行移动鼠标点击,是为了获取窗口的焦点
#7#8#9#10 复制页面内容到剪切板
#11 获取到的内容写入数据表格,这里的数据表格,就是我们想要获得的文章内容了
#12#13#14 必要的收尾工作
流程展示
整个流程思路其实很简单,也不需要编写代码,完整的流程展示如下:
小程序
以上只是一个简单演示,后续还有很多细节需要处理,比如文章内容直接保存excel,获取文章图片,过滤部分文字,得益于影刀可以嵌入python代码,其实这些都可以做到的。
我把这个影刀应用分享出来了,这个只在我本机跑过,其他机器环境没有测试,感兴趣可以看看。
https://api.winrobot360.com/redirect/robot/share?inviteKey=ae8252d258d34fcd