|
|
@@ -9,7 +9,7 @@ |
|
|
|
|
|
|
|
支持多数据源类型的数据同步实现和数据仓库其他的数据源互通。对接收数据进行解压,对外提供压缩后的数据。
|
|
|
|
|
|
|
|
主要用途分为三大块:1.数据储存,2.数据标记,3.数据挖掘。
|
|
|
|
主要用途分为三大块: **1.数据储存,2.数据标记,3.数据挖掘** 。
|
|
|
|
|
|
|
|
经历了很多版本的迭代升级,期间采用过机器学习、深度学习、tensorflow 和 PaddlePaddle,经历大量的开发测试与项目实战经验。
|
|
|
|
|
|
|
@@ -42,9 +42,6 @@ |
|
|
|
备注:在项目初期应该用最简洁明了的方式对数据处理加工,等到对自身需求有一定深刻认识的时候,再对具体的数据工场的具体功能设计。进过对工商数据,对资讯数据,对招投标数据的输入、输出、处理、调用的各个环节后,会对数据工场具体需求有一个全面的认识。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
## 技术架构
|
|
|
|
|
|
|
|
![输入图片说明](ProIMG/Im0bekTbfnilPyHVt1rWJA.png)
|
|
|
@@ -93,19 +90,19 @@ |
|
|
|
|
|
|
|
|
|
|
|
## 数据去重
|
|
|
|
- URL去重
|
|
|
|
采用了redis集群
|
|
|
|
- **URL去重**
|
|
|
|
|
|
|
|
采用了redis集群
|
|
|
|
|
|
|
|
- 内容去重
|
|
|
|
采用Elasticsearch内部的查询将文章标题一样的内容检索过滤掉。
|
|
|
|
|
|
|
|
- **内容去重**
|
|
|
|
|
|
|
|
## 数据清洗
|
|
|
|
采用Elasticsearch内部的查询将文章标题一样的内容检索过滤掉。
|
|
|
|
|
|
|
|
自动提取字段,标题、正文、时间、作者、来源 等。
|
|
|
|
|
|
|
|
## 数据清洗
|
|
|
|
|
|
|
|
自动提取字段,标题、正文、时间、作者、来源 等。
|
|
|
|
|
|
|
|
|
|
|
|
## 数据标记
|
|
|
|