python爬虫---爬取书评并制作词云（The Litter Prince）

日期：2024-12-28 作者：l6nf9 评论：0 移动：http://mip.riyuangf.com/mobile/news/10445.html

核心提示：一、轻松上手 Python 爬虫，解锁网络数据宝藏在信息爆炸的时代，网络如同浩瀚海洋，蕴

一、轻松上手 Python 爬虫，解锁网络数据宝藏
在信息爆炸的时代，网络如同浩瀚海洋，蕴含海量有价值数据。Python 爬虫宛如精准捕捞的渔夫，能帮我们快速抓取所需信息。下面我们来爬一下《The Litter Prince》这本书的书评

简单分析一下：

1. def getHtmlDoc(url):#从指定的 URL 获取网页内容，并将其保存到一个 HTML 文件（xiaowangzi.html）中，同时提供了简单的错误处理机制。

其中： headers #这个信息模拟了一个浏览器，目的是为了避免被网站识别为爬虫。

是库中用于发送 GET 请求的函数（请求访问url,即书评地址）

2. def getComment(html):#主要作用是从传入的 HTML 文档中提取评论内容

其中：使用库解析传入的 HTML 文档。是一个更快、更强大的解析库。不过使用需要事先安装相应的库。）

3. 主程序

for p in range(0, 40, 20):# 函数的参数表示从 0 开始，到 39 结束，步长为 20。在这个例子中，它会产生两个值：0 和 20。循环将执行两次，每次将分别赋值为这两个值。

所以，这里是爬取了2页的评论

使用打开文件，以写入模式（）创建或覆盖文件。该文件将用于存储爬取到的评论。使用从每个评论的 BeautifulSoup 对象中提取纯文本内容，去除前后的空白字符，然后写入文件。

二、制作词云

整段代码通过读取文本数据，进行分词、去除停用词统计词频，然后生成和保存词云。

简单分析一下：

1. stopwords=[line.strip() for line in open("停用词.txt","r",encoding="utf-8").readlines()]从文件中读取停用词，并去除每行的空白字符，生成一个包含停用词的列表。(停用词可以从网上下载，也可以自己从得到的分词列表中挑选）

2.for m in range(190): 将排序后前 190 个词及其对应的频率写入该文件。

词云展示

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0打赏 0评论 0

更多>同类最新资讯

0 条相关评论

相关文章

最新文章

武汉出发，探秘云南：自驾游更佳路线全解析

推荐文章

推荐图文

最新资讯

点击排行

• 魅影直播：一个创新互动和丰富娱乐内容并重的全	• 在Docker容器里安装WebSphere
• 哔哩哔哩b站引流获客策略与广告开户详细指南	• 竞价排名，如何让你的网站在竞争中胜出？
• “雪亮工程”大项目：这8个省市最值得关注，占	• 《爱在日落时》短剧在线观看，霸道少爷爱上我（
• 蛛丝马迹：“蓝艺传媒”是騙局吗？被骗不允许你	• 淘宝新3：4闪图引流技术有什么运用
• 手机怎么屏蔽网址	• 寺库手表国内疫情后奢侈品消费高速反弹，年轻