Id | Module Name | File Name | Describe |
1 | 验证模块 | authentication | 验证数据库连接状态 验证网站连通性 验证代理有效性 |
2 | 代理池 | proxyPool | 代理爬取 从数据获取随机代理 |
3 | 配置管理器 | configManager | 存储爬虫相关配置信息,如数据库配置、网站URL、报头等 |
4 | 网页下载器 | pageDownloader | 获取网页源代码 |
5 | 网页解析器 | pageResolver | 解析网页源代码 |
6 | 数据处理器 | dataDisposer | 数据存储 数据删除 数据更新 数据清洗 获得数据库对象 |
7 | 数据推送模块 | dataPusher_HTML、dataPusher | HTML引擎,可以生成HTML文件 从数据库获取数据,更新推送标识 格式化邮件地址 邮件推送 |
8 | 爬虫日志 | spiderLog | 日志写入到文本,包含普通信息、警告、错误、异常等 |
9 | 调度引擎 | scheduleEngine | 构造代理引擎、独立代理引擎、验证引擎、网页爬取引擎、数据推送引擎,然后统一调度,完成推送 |
10 | 日志监控 | log_record | 爬虫执行结果写入到数据库的日志表中 |
11 | 代理池更新 | rebuild_proxy | 清空代理池,重新爬取代理 |
">