Browse Source

update dataProcessing.md.

tags/v1.0.1-224.11141
思通数科 StoneDT Gitee 2 years ago
parent
commit
a54863c7d9
No known key found for this signature in database GPG Key ID: 173E9B9CA92EEF8F
1 changed files with 7 additions and 10 deletions
  1. +7
    -10
      dataProcessing.md

+ 7
- 10
dataProcessing.md View File

@@ -9,7 +9,7 @@
支持多数据源类型的数据同步实现和数据仓库其他的数据源互通。对接收数据进行解压,对外提供压缩后的数据。
主要用途分为三大块:1.数据储存,2.数据标记,3.数据挖掘。
主要用途分为三大块: **1.数据储存,2.数据标记,3.数据挖掘**
经历了很多版本的迭代升级,期间采用过机器学习、深度学习、tensorflow 和 PaddlePaddle,经历大量的开发测试与项目实战经验。
@@ -42,9 +42,6 @@
备注:在项目初期应该用最简洁明了的方式对数据处理加工,等到对自身需求有一定深刻认识的时候,再对具体的数据工场的具体功能设计。进过对工商数据,对资讯数据,对招投标数据的输入、输出、处理、调用的各个环节后,会对数据工场具体需求有一个全面的认识。
## 技术架构
![输入图片说明](ProIMG/Im0bekTbfnilPyHVt1rWJA.png)
@@ -93,19 +90,19 @@
## 数据去重
- URL去重
采用了redis集群
- **URL去重**
采用了redis集群
- 内容去重
采用Elasticsearch内部的查询将文章标题一样的内容检索过滤掉。
- **内容去重**
## 数据清洗
采用Elasticsearch内部的查询将文章标题一样的内容检索过滤掉。
自动提取字段,标题、正文、时间、作者、来源 等。
## 数据清洗
自动提取字段,标题、正文、时间、作者、来源 等。
## 数据标记


Loading…
Cancel
Save