update dataCollection.md.

3 years ago · 0d02f3f9ad
--- a/ProIMG/spider-factory-4.png
+++ b/ProIMG/spider-factory-4.png
--- a/ProIMG/spider-factory-templeta.png
+++ b/ProIMG/spider-factory-templeta.png
--- a/ProIMG/spider-work-err.png
+++ b/ProIMG/spider-work-err.png
--- a/dataCollection.md
+++ b/dataCollection.md
@@ -63,13 +63,13 @@
 信源，信息来源的简称。
 <br><br>
 我们需要对采集 类型，内容，平台，地区 等多种属性进行管理。我们对此开发了三代信源管理平台。
 一代产品形态
 ##### 一代产品形态
 ![输入图片说明](ProIMG/spider-factory-1.png)
 二代产品形态
 ##### 二代产品形态
 ![输入图片说明](ProIMG/spider-factory-2.png)
 三代产品形态
 ##### 三代产品形态
 ![输入图片说明](ProIMG/spider-factory-3.png)
 ## 站点画像  
@@ -93,32 +93,67 @@
 有的网站抓取难度大，采用可视化技术将整个站点的标签提取出来给开发工程师，他们将可以快速的对网站的抓取进行配置。
 我们在采集任何一个网站的时候将会有各种“探头”对网站的结构，广告位，关键性内容，导航栏，分页，列表，站点特性，站点数据量，抓取难易度，站点更新频率，等等。
 - 采集模板
 为了简化人工操作，提高工作效率，我们还提供了爬虫模板。爬虫模板的意义在于，用户遇到一个配置繁琐的站点，不用从头开始，只需要到爬虫模板库里面找类似的模板即可，如图所示：
 ![输入图片说明](ProIMG/spider-factory-templeta.png)
 ## 数据暂存
 如果把数据直接储存到系统大数据库里，一旦有大量采集的脏数据下来就是浪费时间和精力，所有数据都会预演储存一遍，储存完成后会有程序对此核对监测，以免数据字段漏存，错存。如果在暂存环节发现储存错误，将会及时对研发工程师提醒，告知错误内容，让其对此修正。
 - 暂存  <br>
 如果把数据直接储存到系统大数据库里，一旦有大量采集的脏数据下来就是浪费时间和精力，所有数据都会预演储存一遍，储存完成后会有程序对此核对监测，以免数据字段漏存，错存。
 - 预警  <br>
 如果在暂存环节发现储存错误，将会及时通过邮件发送对研发工程师提醒，告知错误内容，让其对此修正。
 <br><br>
 ## 分布式采集
 - 控制器
 - 分发器
 ## 低代码开发
 - 配置<br>
 目前的爬虫工厂已经一个低代码化开发的平台了，更准确的说，我们不是在上面开发，而且在上面进行爬虫配置对数据采集抓取。如图所示：
 ![输入图片说明](ProIMG/spider-factory-4.png)
 - 维护 <br>
 通过低代码的方式的开发，我们对爬虫的维护更加方便，只需要在web管理界面中，修改爬虫抓取配置即可，同时还可以在线调试，查看具体的抓取错误日志。否则某一个站点抓取出现问题，都不知道是哪台服务器上的哪个爬虫抓取错误。各种站点爬虫的量一旦大起来，维护成本极高。
 ![输入图片说明](ProIMG/spider-work-err.png)
 - 执行器
 <br><br>
 ## 低代码配置
 ## 分布式采集
 - 控制器(master)
 - 分发器(dispatch)
 - 执行器 (downloader)
 <br><br>
 ## 爬虫管理
 <br><br>
 - 爬虫状态
 - 采集状态
 <br> 
 ## 反爬策略
 <br><br>
 - 模拟请求头
 - 代理IP池
 - 验证码打码
 <br> 
 ## 采集日志
 - 日志跟踪ID
 <br><br>
 - 数据生命周期
 <br><br>
@@ -127,10 +162,15 @@
 ## 数据解析
 - 自动解析
 <br><br>
 - 手动解析
 <br> 
 ## 数据储存
 ##### 异步调用 <br>
 通过kafka中间件将数据通过消息的形式发送给储存端子系统。
 <br><br>
 ##### 更多内容：<br>[【数据处理】技术架构说明文档](https://gitee.com/stonedtx/yuqing/blob/master/dataProcessing.md) 
 <br><br><br><br>