python爬虫---爬取书评并制作词云(The Litter Prince)

   日期:2024-12-28     作者:l6nf9       评论:0    移动:http://mip.riyuangf.com/mobile/news/10445.html
核心提示: 一、轻松上手 Python 爬虫,解锁网络数据宝藏          在信息爆炸的时代,网络如同浩瀚海洋,蕴

 一、轻松上手 Python 爬虫,解锁网络数据宝藏
         在信息爆炸的时代,网络如同浩瀚海洋,蕴含海量有价值数据。Python 爬虫宛如精准捕捞的渔夫,能帮我们快速抓取所需信息。下面我们来爬一下《The Litter Prince》这本书的书评

python爬虫---爬取书评并制作词云(The Litter Prince)

 

简单分析一下

1. def getHtmlDoc(url):#从指定的 URL 获取网页内容,并将其保存到一个 HTML 文件(xiaowangzi.html)中,同时提供了简单的错误处理机制。

 其中: headers #这个信息模拟了一个浏览器,目的是为了避免被网站识别为爬虫。

             是  库中用于发送 GET 请求的函数(请求访问url,即书评地址

2. def getComment(html):#主要作用是从传入的 HTML 文档中提取评论内容

      其中: 使用  库解析传入的 HTML 文档。 是一个更快、更强大的解析库。不过使用  需要事先安装相应的库。

3. 主程序

     for p in range(0, 40, 20):# 函数的参数表示从 0 开始,到 39 结束,步长为 20。在这个例子中,它会产生两个值:0 和 20。循环将执行两次,每次将  分别赋值为这两个值。

所以这里是爬取了2页的评论

使用  打开文件,以写入模式)创建或覆盖文件。该文件将用于存储爬取到的评论。使用  从每个评论的 BeautifulSoup 对象中提取纯文本内容,去除前后的空白字符,然后写入文件。

 二、制作词云

        整段代码通过读取文本数据,进行分词、去除停用词统计词频,然后生成和保存词云。

 

简单分析一下: 

1. stopwords=[line.strip() for line in open("停用词.txt","r",encoding="utf-8").readlines()]从文件中读取停用词,并去除每行的空白字符,生成一个包含停用词的列表。(停用词可以从网上下载,也可以自己从得到的分词列表中挑选

2.for m in range(190): 将排序后前 190 个词及其对应的频率写入该文件。 

词云展示

 
特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

举报收藏 0打赏 0评论 0
 
更多>同类最新资讯
0相关评论

相关文章
最新文章
推荐文章
推荐图文
最新资讯
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号