在
Python中
抓取豆瓣电影Top250的标题和评论通常会使用到`requests`库来发送HTTP请求获取网页内容,然后使用如`BeautifulSoup`或`lxml`库解析HTML数据,最后提取出所需的信息。以下是一个简化的步骤概述:
1. 首先,你需要安装必要的库,如果还没有安装,可以运行:
```
pip install requests beautifulsoup4
```
2. 然后,编写一个函数来获取网页内容并解析:
```
python
i
mport requests
from bs4 i
mport BeautifulSoup
def get_douban_movie_info(url):
respo
nse = requests.get(url)
soup = BeautifulSoup(response.text,
'lxml
')
# 找到包含电影列表的部分
movie_list = soup.find(
'ol
', {
'class
':
'grid_view
'})
titles_and_comments = []
for item in movie_list.find_all(
'div
', class_=
'hd
'):
title = item.h3.a.text # 提取标题
comment_area = item.parent.next_sibling # 获取评论区域链接
comments_url = f
'https://movie.douban.com{comment_area.find("a", href=https://blog.csdn.net/qq_42740834/article/details/True)["href"]}
' # 构建评论页面URL
# 获取评论数
comment_count = int(comment_area.find(
'span
', class_=
'pl
').text.strip().replace(
'
',
'
').split(
'/
')[0])
titles_and_comments.append((title, comments_url, comment_count))
return titles_and_comments
```
3. 最后,你可以调用这个函数,并处理返回的结果:
```
python
titles_and_comments = get_douban_movie_info(
'https://movie.douban.com/top250
')
for title, comments_url, comment_count in titles_and_comments:
print(f"电影标题: {title}")
print(f"评论地址: {comments_url}")
print(f"评论数: {comment_count}