分享好友 最新资讯首页 最新资讯分类 切换频道
python爬虫---爬取书评并制作词云(The Litter Prince)
2024-12-28 11:44

 一、轻松上手 Python 爬虫,解锁网络数据宝藏
         在信息爆炸的时代,网络如同浩瀚海洋,蕴含海量有价值数据。Python 爬虫宛如精准捕捞的渔夫,能帮我们快速抓取所需信息。下面我们来爬一下《The Litter Prince》这本书的书评

python爬虫---爬取书评并制作词云(The Litter Prince)

 

简单分析一下

1. def getHtmlDoc(url):#从指定的 URL 获取网页内容,并将其保存到一个 HTML 文件(xiaowangzi.html)中,同时提供了简单的错误处理机制。

 其中: headers #这个信息模拟了一个浏览器,目的是为了避免被网站识别为爬虫。

             是  库中用于发送 GET 请求的函数(请求访问url,即书评地址

2. def getComment(html):#主要作用是从传入的 HTML 文档中提取评论内容

      其中: 使用  库解析传入的 HTML 文档。 是一个更快、更强大的解析库。不过使用  需要事先安装相应的库。

3. 主程序

     for p in range(0, 40, 20):# 函数的参数表示从 0 开始,到 39 结束,步长为 20。在这个例子中,它会产生两个值:0 和 20。循环将执行两次,每次将  分别赋值为这两个值。

所以这里是爬取了2页的评论

使用  打开文件,以写入模式)创建或覆盖文件。该文件将用于存储爬取到的评论。使用  从每个评论的 BeautifulSoup 对象中提取纯文本内容,去除前后的空白字符,然后写入文件。

 二、制作词云

        整段代码通过读取文本数据,进行分词、去除停用词统计词频,然后生成和保存词云。

 

简单分析一下: 

1. stopwords=[line.strip() for line in open("停用词.txt","r",encoding="utf-8").readlines()]从文件中读取停用词,并去除每行的空白字符,生成一个包含停用词的列表。(停用词可以从网上下载,也可以自己从得到的分词列表中挑选

2.for m in range(190): 将排序后前 190 个词及其对应的频率写入该文件。 

词云展示

最新文章
wordpress侧边栏小工具心得总结
最新在弄苹果ATS检测工具,由于是单独的页面,所以要调整整合,头部和底部没有问题,页面太宽太大,有些太单一,于是想要添加侧
Python实现智能客服问答系统
Python聊天机器人,智能问答系统Python聊天机器人,智能问答系统Python聊天机器人,智能问答系统Python聊天机器人,智能问答系统
iPhone充电只能充到80%怎么办 iPhone暂停优化电池电量不增加的解决办法【详解】
  在 iOS 13 及更高版本中,苹果为 iPhone 带来了优化电池充电功能,其作用是减少电池的损耗,并通过减少 iPhone 处于完全充电
wordpress响应式企业服务公司HTML5宣传模板 v28
wordpress 外贸网站整站源码是 响应式企业服务公司HTML5宣传模板.安装:第一:上传网站程序到你的空间。第二:数据库操作,使用p
VM虚拟机如何安装iOS或iPadOS 13 beat
Apple于2019年6月3日发布了新版本的iOS 13和iPadOS开发者测试版。暗黑的风格是否喜欢?现在让我们了解如何在iPhone上下载和安装i
To B企业都有哪些营销方式?
首先来说To B跟To C相比,有哪些差异?ToC的客单价相对来说比较低一点,ToB的客单价会更高,客户数量也会更少,而且客户的决策链
Python爬虫源码合集,附网盘链接
但有一点请大家注意,这些源码不是直接在手机上能够运行的,它是需要在Python环境下才能运行。这里可能很多朋友就会问,什么是Py
qbit下载完成自动创建软连接
【写作说明】:元旦购置了一台65x9500h电视机,加上某校pt站开注,遂入了家庭媒体服务器的坑。分享下自己折腾历程。在emby plex
TME财报解析:在线音乐强劲增长,转型之年卓有成效
更具可持续性的在线音乐业务,将成为拉动TME营收增长核心驱动力,有效推动TME进入高质量发展轨道。作者|Cindy编辑|杨 铭音乐行业