现在网页爬虫代码可谓是满天飞,特别是python、PHP写的居多,百度随便一搜,满屏都是,不管什么计算机语言编写的,性能都不会相关到哪里去,重要的是实现思路。
下面我说说我个人的实现思路:
十多年前,我写过了一款爬虫,当时的思路:
1、根据设定的关键词。
2、百度搜索相关关键词并保存。
3、遍历关键词库,搜索相关网页信息。
4、提取搜索页面的页面链接。
5、遍历每页的网页链接。
6、爬取网页数据。
7、解析数据、构造标题、关键词、描述、内容,并入库。
8、部署到服务器上、每天自动更新html页面。
这里最关键的点就是:标题的智能组织、关键词的自动组合、和内容的智能拼接。
当时、在搜索引擎还没有那么智能的时候,效果相当好!百度收录率非常高。
数据采集部分:
根据设定的最初关键词,从百度搜索引擎搜索相关关键词,遍历相关关键词库,爬取百度数据。
构建数据部分:
根据原有的文章标题,分解为多个关键词,作为SEO的关键词。同样,分解文章内容,取第一段内容的前100个字作为SEO的网页描述。内容就不变,整理好数据,入库保存。
文章发布部分:
根据整理好的数据(SEO相关设置),匹配相关页面模板,依次生成文章内容页、文章列表页面、网站首页。部署到服务器上,每天自动更新设定数量的文章。