欢迎关注 『Python』 系列,持续更新中
欢迎关注 『Python』 系列,持续更新中
适合有一定的基础xpath知识基础的同学练手使用,最后的数据输出格式化大家还可以再美化下,本次关键是爬虫。
“%10s %10s %10s” % (“名称”, “分数”, “城市”)
让字符串占位10个位置,占位格式化输出
name = tr.xpath(“https://blog.csdn.net/u011027547/article/details/td[2]/div/div[2]/div[1]/div/div/a/text()”)[0].replace(" “, “”).replace(” ", “”)
获取指定xpath节点的文本,取得列表第一项,replace格式化掉多于的空格和换行符
- 导入必要的包
- 根据url获取页面源码并提取和解析数据(注意,这里一定要记得转化编码格式,否则会乱码!!!)
- 拿到所有学校的数据集合(这里末尾的tr[1]表示取第一个学校,改成tr后表示取所有的tr也就是取所有的学校),这样方便后续的循环for遍历,类似先找到所有对象的集合,然后对每个对象进行统一的提取信息操作
- 取出信息并且装入result列表,二层列表嵌套
- 一定要加上这句编码格式设定为utf-8,否则会乱码。
- 使用复制完整的xpath路径,新手入门建议
大家喜欢的话,给个👍,点个关注!继续跟大家分享敲代码过程中遇到的问题!
版权声明:
发现你走远了@mzh原创作品,转载必须标注原文链接
Copyright 2022 mzh
Crated:2022-1-10