Python之Scrapy爬虫(热门网站数据爬取)
Scrapy是一个强大的Python网络爬虫框架,用于高效地抓取网页数据。下面是一个简单的Scrapy爬虫示例,它会抓取指定网站(如新闻网站)的热门文章标题:
```python
# 首先,确保已安装Scrapy库,如果没有可以使用pip install scrapy
import scrapy
class HotArticlesSpider(scrapy.Spider):
name = 'hot_articles'
start_urls = ['http://example.com/hot'] # 将 'http://example.com/hot' 替换为你想要抓取的热门文章列表页面URL
def parse(self, response): # 解析函数
articles = response.css('div.article') # 假设文章信息在CSS选择器'div.article'下
for article in articles:
title = article.css('h2 a::text').get() # 提取文章标题
yield {
'title': title,
'url': article.css('h2 a::attr(href)').get(), # 提取文章链接
}
next_page = response.css('li.next a::attr(href)').get() # 如果有分页,提取下一个页面的链接
if next_page is not None:
特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。