|
@@ -63,13 +63,13 @@ |
|
|
信源,信息来源的简称。
|
|
|
信源,信息来源的简称。
|
|
|
<br><br>
|
|
|
<br><br>
|
|
|
我们需要对采集 类型,内容,平台,地区 等多种属性进行管理。我们对此开发了三代信源管理平台。
|
|
|
我们需要对采集 类型,内容,平台,地区 等多种属性进行管理。我们对此开发了三代信源管理平台。
|
|
|
一代产品形态
|
|
|
|
|
|
|
|
|
##### 一代产品形态
|
|
|
![输入图片说明](ProIMG/spider-factory-1.png)
|
|
|
![输入图片说明](ProIMG/spider-factory-1.png)
|
|
|
|
|
|
|
|
|
二代产品形态
|
|
|
|
|
|
|
|
|
##### 二代产品形态
|
|
|
![输入图片说明](ProIMG/spider-factory-2.png)
|
|
|
![输入图片说明](ProIMG/spider-factory-2.png)
|
|
|
|
|
|
|
|
|
三代产品形态
|
|
|
|
|
|
|
|
|
##### 三代产品形态
|
|
|
![输入图片说明](ProIMG/spider-factory-3.png)
|
|
|
![输入图片说明](ProIMG/spider-factory-3.png)
|
|
|
|
|
|
|
|
|
## 站点画像
|
|
|
## 站点画像
|
|
@@ -93,32 +93,67 @@ |
|
|
有的网站抓取难度大,采用可视化技术将整个站点的标签提取出来给开发工程师,他们将可以快速的对网站的抓取进行配置。
|
|
|
有的网站抓取难度大,采用可视化技术将整个站点的标签提取出来给开发工程师,他们将可以快速的对网站的抓取进行配置。
|
|
|
我们在采集任何一个网站的时候将会有各种“探头”对网站的结构,广告位,关键性内容,导航栏,分页,列表,站点特性,站点数据量,抓取难易度,站点更新频率,等等。
|
|
|
我们在采集任何一个网站的时候将会有各种“探头”对网站的结构,广告位,关键性内容,导航栏,分页,列表,站点特性,站点数据量,抓取难易度,站点更新频率,等等。
|
|
|
|
|
|
|
|
|
|
|
|
- 采集模板
|
|
|
|
|
|
为了简化人工操作,提高工作效率,我们还提供了爬虫模板。爬虫模板的意义在于,用户遇到一个配置繁琐的站点,不用从头开始,只需要到爬虫模板库里面找类似的模板即可,如图所示:
|
|
|
|
|
|
![输入图片说明](ProIMG/spider-factory-templeta.png)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
## 数据暂存
|
|
|
## 数据暂存
|
|
|
如果把数据直接储存到系统大数据库里,一旦有大量采集的脏数据下来就是浪费时间和精力,所有数据都会预演储存一遍,储存完成后会有程序对此核对监测,以免数据字段漏存,错存。如果在暂存环节发现储存错误,将会及时对研发工程师提醒,告知错误内容,让其对此修正。
|
|
|
|
|
|
|
|
|
- 暂存 <br>
|
|
|
|
|
|
如果把数据直接储存到系统大数据库里,一旦有大量采集的脏数据下来就是浪费时间和精力,所有数据都会预演储存一遍,储存完成后会有程序对此核对监测,以免数据字段漏存,错存。
|
|
|
|
|
|
- 预警 <br>
|
|
|
|
|
|
如果在暂存环节发现储存错误,将会及时通过邮件发送对研发工程师提醒,告知错误内容,让其对此修正。
|
|
|
<br><br>
|
|
|
<br><br>
|
|
|
|
|
|
|
|
|
## 分布式采集
|
|
|
|
|
|
- 控制器
|
|
|
|
|
|
|
|
|
|
|
|
- 分发器
|
|
|
|
|
|
|
|
|
## 低代码开发
|
|
|
|
|
|
|
|
|
|
|
|
- 配置<br>
|
|
|
|
|
|
目前的爬虫工厂已经一个低代码化开发的平台了,更准确的说,我们不是在上面开发,而且在上面进行爬虫配置对数据采集抓取。如图所示:
|
|
|
|
|
|
![输入图片说明](ProIMG/spider-factory-4.png)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
- 维护 <br>
|
|
|
|
|
|
通过低代码的方式的开发,我们对爬虫的维护更加方便,只需要在web管理界面中,修改爬虫抓取配置即可,同时还可以在线调试,查看具体的抓取错误日志。否则某一个站点抓取出现问题,都不知道是哪台服务器上的哪个爬虫抓取错误。各种站点爬虫的量一旦大起来,维护成本极高。
|
|
|
|
|
|
![输入图片说明](ProIMG/spider-work-err.png)
|
|
|
|
|
|
|
|
|
- 执行器
|
|
|
|
|
|
|
|
|
|
|
|
<br><br>
|
|
|
<br><br>
|
|
|
|
|
|
|
|
|
## 低代码配置
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
## 分布式采集
|
|
|
|
|
|
- 控制器(master)
|
|
|
|
|
|
|
|
|
|
|
|
- 分发器(dispatch)
|
|
|
|
|
|
|
|
|
|
|
|
- 执行器 (downloader)
|
|
|
|
|
|
|
|
|
<br><br>
|
|
|
<br><br>
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
## 爬虫管理
|
|
|
## 爬虫管理
|
|
|
<br><br>
|
|
|
|
|
|
|
|
|
- 爬虫状态
|
|
|
|
|
|
|
|
|
|
|
|
- 采集状态
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
<br>
|
|
|
|
|
|
|
|
|
## 反爬策略
|
|
|
## 反爬策略
|
|
|
<br><br>
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
- 模拟请求头
|
|
|
|
|
|
|
|
|
|
|
|
- 代理IP池
|
|
|
|
|
|
|
|
|
|
|
|
- 验证码打码
|
|
|
|
|
|
|
|
|
|
|
|
<br>
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
## 采集日志
|
|
|
## 采集日志
|
|
|
- 日志跟踪ID
|
|
|
- 日志跟踪ID
|
|
|
<br><br>
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
- 数据生命周期
|
|
|
- 数据生命周期
|
|
|
<br><br>
|
|
|
<br><br>
|
|
@@ -127,10 +162,15 @@ |
|
|
## 数据解析
|
|
|
## 数据解析
|
|
|
- 自动解析
|
|
|
- 自动解析
|
|
|
|
|
|
|
|
|
<br><br>
|
|
|
|
|
|
|
|
|
- 手动解析
|
|
|
|
|
|
|
|
|
|
|
|
<br>
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
## 数据储存
|
|
|
## 数据储存
|
|
|
|
|
|
##### 异步调用 <br>
|
|
|
通过kafka中间件将数据通过消息的形式发送给储存端子系统。
|
|
|
通过kafka中间件将数据通过消息的形式发送给储存端子系统。
|
|
|
|
|
|
<br><br>
|
|
|
|
|
|
##### 更多内容:<br>[【数据处理】技术架构说明文档](https://gitee.com/stonedtx/yuqing/blob/master/dataProcessing.md)
|
|
|
|
|
|
|
|
|
<br><br><br><br>
|
|
|
<br><br><br><br>
|