分享好友 最新动态首页 最新动态分类 切换频道
java怎么抓取微信公众号文章
2024-12-25 18:25


微信公众平台上面的公众号很多,里面各种文章都有,很多很杂乱。不过在这些文章中,肯定是会存在自己所认为的精品的文章的。

所以如果我自己能够编写出一个程序,用来获取自己喜欢的某个微信公众号上的文章,获取文章的浏览量和点赞量,然后加以简单的数据分析,那么最终得到的文章列表,肯定就会是比较好的文章了。

这里需要注意的是,通过编写爬虫获取搜狗微信搜索中的微信文章,并不能得到浏览量和点赞量这两个关键性的数据(编程功力入门级别的我)。所以我就另辟蹊径,通过清博指数这个网站,来获取我所想要的数据。

注:目前已经找到方法可以获得搜狗微信中文章的浏览量和点赞量。2017.02.03

其实清博指数这个网站上面的数据都很齐全了,可以看到微信公众号的榜单,可以看到每日每周每月的热文,但是还是我上面所说的,内容比较杂乱,那些阅读量很高的文章,有可能就是一些家长级别的人才会喜欢的文章。

当然,我也可以在这个网站上搜索特定的微信公众号,然后看它的历史文章。清博指数做的也已经很细了,可以根据阅读数、点赞数等排序文章。但是,我所需要的可能是点赞数除以阅读数这个很简单的指标,所以我便需要将上面的数据通过爬虫抓取下来,进行下简单的分析。顺便可以练练手,无聊的慌。

开始程序

以微信公众号简七理财为例,我需要先打开其文章界面,下面是其url:

http://www.gsdata.cn/query/article?q=jane7ducai&post_time=0&sort=-3&date=&search_field=4&page=1

然后我通过分析发现,它总共有25页文章,也就是最后一页文章的url是下面这样,注意只有最后一个参数是不一样的:

http://www.gsdata.cn/query/article?q=jane7ducai&post_time=0&sort=-3&date=&search_field=4&page=25

所以就可以编写一个函数,重复调用25次就可以了。

BeautifulSoup抓取网页上自己所需要的数据

忘了说了,我编写程序的语言用的是Python,其爬虫入门很简单。然后BeautifulSoup是一个网页分析的插件,用来获取文章中的HTML数据很方便。

接下来就是分析网页结构了:

我用红框框起来的是两篇文章,它们在网页的结构代码都是一致的。然后通过审查元素我可以看到网页的对应代码,这时候便可以编写出爬取的规则出来,下面我直接是写成了一个函数:

此函数包含了用requests先来获取网页的内容,然后传给BeautifulSoup用来分析提取我所需要的数据,然后在通过insert_content函数数据库中,数据库的知识本次就不做涉及,全部代码会在下面给出,也算是怕自己之后遗忘。

个人认为,其实BeautifulSoup的知识点只需要掌握我上面代码所用到的find,findAll,get_text(),attrs['src']等几个常用的语句就可以了。

循环抓取,且写入数据库中

最一开始的url还记得吗,总共需要抓取25个页面,这个25个页面的url其实就最后面的参数不一样,所以完全可以给定一个基础url,然后用for函数直接生成25个url就可以了:

如上面的代码,get_urls_webdataas这个函数传入了两个参数,便是基础的url和需要的页面数了,可以看到我在代码的最后一行对此函数进行了调用。

此函数还调用了上面我抓取页面所编写的函数get_webdata,这样的话,25个页面上的文章数据都会一次写入数据库中。

然后请注意下面这个小技巧:

time.sleep(round(random.random(),1))

我每用程序爬取完一个网页,此语句便会随机生成一个1s内的时间段,然后休息这么一个很小的时间段,然后接着继续抓取下一个页面,可以防止被ban。

拿到最终数据

先给出我此次编写程序所剩下的代码:

包含开头的import一些插件,然后剩下的这两个函数便是数据库操作相关的函数。

最终我通过在数据库中select * from weixin.gsdata;,便可以获取到我所抓取到的此微信公众号的文章数据,包括标题、发布日期、阅读量、点赞量、访问url等信息。

分析数据

这些数据只是最原始的数据,我可以将上面的数据导入到Excel中,进行简单的分析处理,便可以获得我所需要的文章列表。分析思路有下:

我可以按照点赞量排序

我可以按照阅读量排序

我可以用点赞量除以阅读量,然后由大到小排序

我还可以加入时间的因素

我所喜欢的微信公众号就那么几个,我完全可以通过此程序将我所喜欢的微信公众号的文章全部抓取下来,我愿意的话,可以进一步筛选出更加优质的文章。

程序很简单,但是简单的程序可以实现生活中的一些想法,难道不是一件很美妙的事情么。

最新文章
58同城励志广告:致追梦路上勇敢前行的你!
关注回复“营销”免费领取2G《营销策略及管理制度大全》 编辑老罗 | 品牌营销报(ID:PPYX007)来源叶川 | 营销观察报(yingxiaogcb)2018,我的故事从勇敢追梦开始!春节过完,家的味道随着每个人的离开渐渐变淡。在家吃的每顿菜饭都酱香
ai怎么设计路牌灯箱平面插画效果?
路牌被用来展示大型的广告,谁想要使用ai进行画面的效果模拟,从而让设计出来的广告画更加的符合路牌的尺寸与环境。该怎么设计路牌灯箱呢?请看下文详细介绍。1、先用圆角矩形工具画出一个立柱,我们用灰黑色的渐变填充。2、继续用圆角矩形
AI绘画神器:一键生成超逼真美女写真,你准备好了吗?
限时免费,点击体验最近超火的AI生图神器,坐拥3000美女的大男主就是你! https://ai.sohu.com/pc/generate/textToImg?_trans_=030001_yljdaimn 在这个数字时代,AI技术已经无处不在,甚至连我们平常所见的美女写真也可以通过AI工具轻松生
20分钟带你了解:楚雄怎么找附近的人上门
楚雄怎么找附近的人上门==(惘:s m 1 8 . c c 址==啃啄RTYFDGBGD哼啇==加拿大继续接纳数以万计的新永久居民,努力实现2024年接纳48.5万名新移民的目标。最新数据显示,截至5月份,该国今年已迎来210,865名新永久居民。加拿大继续接纳数以
Acne Studios入口内几乎都有6折+用码85折,半价拿下应季秋冬款
※ Mr Porter支持VISA、MASTERCARD双币/多币信用卡,也支持paypal、银联付款; ※ Mr Porter支持直邮全球,通过切换网站顶部的国家可以进入不同国家的站点,查看到直邮这个国家的所有商品,由于各个国家贸易政策不相同,Mr Porter有的产品
7723游戏盒子下载免root安卓最新版v5.5.2安卓版
7723游戏盒子免root安卓最新版为广大游戏玩家提供的安全实用便捷的游戏辅助,还在为找不到破解的游戏而烦恼么,7723有各种破解游戏等待着你,还在为氪金而纠结苦恼么,7723有更多福利礼包免费送,还在为找不到心仪的游戏二烦心么,7723为你
5G、人工智能到底多重要?大咖们这么说
  央视网消息:11月7日,第五届世界互联网大会在浙江乌镇正式开幕。有关5G技术、人工智能、个人信息安全、互联网新趋势的讨论,在乌镇各个角落展开。  5G技术  腾讯马化腾:5G太快了,应该考虑开发VR版微信了  这5年,世界互联网大
AI赋能体育:生成内容的无限可能191
随着人工智能(AI)技术的发展,其在体育领域的应用越来越广泛。其中,AI生成内容(AIGC)尤其引人注目,它能够基于算法和大量数据,自动生成逼真且内容丰富的文本、图像、音频和视频等内容。在体育领域,AI生成内容具有以下优势:提升内容
2022多人联机解密手游推荐前十名 好玩的联机解密游戏排行榜
解密游戏当中,包含有引人入胜的故事剧情,以及刺激的游戏画面,很多玩家都十分喜欢,今天小编为大家带来了2022多人解密推荐前十名。在今天小编带来的文章当中,小编将为大家介绍几款比较有趣的解密。匠木是一款手游,游戏当中包含了浓浓的
36氪
价值评估:36氪于2024-12-19发布于本站,并永久保存在16757网址导航收录中,36氪主要是介绍36氪通过全面,独家的视角为用户深度剖析最前沿的资讯,致力于让一部分人先看到未来,内容涵盖快讯,科技,金融,投资,房产,汽车,互联网,股市
相关文章
推荐文章
发表评论
0评