From a54863c7d98354c20ffe50d9cd796f4f607ffeae Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E6=80=9D=E9=80=9A=E6=95=B0=E7=A7=91=20StoneDT?= <13913853100@163.com> Date: Mon, 21 Feb 2022 15:40:23 +0000 Subject: [PATCH] update dataProcessing.md. --- dataProcessing.md | 17 +++++++---------- 1 file changed, 7 insertions(+), 10 deletions(-) diff --git a/dataProcessing.md b/dataProcessing.md index 8a9d9b8..2fdcfd1 100644 --- a/dataProcessing.md +++ b/dataProcessing.md @@ -9,7 +9,7 @@ 支持多数据源类型的数据同步实现和数据仓库其他的数据源互通。对接收数据进行解压,对外提供压缩后的数据。 -主要用途分为三大块:1.数据储存,2.数据标记,3.数据挖掘。 +主要用途分为三大块: **1.数据储存,2.数据标记,3.数据挖掘** 。 经历了很多版本的迭代升级,期间采用过机器学习、深度学习、tensorflow 和 PaddlePaddle,经历大量的开发测试与项目实战经验。 @@ -42,9 +42,6 @@ 备注:在项目初期应该用最简洁明了的方式对数据处理加工,等到对自身需求有一定深刻认识的时候,再对具体的数据工场的具体功能设计。进过对工商数据,对资讯数据,对招投标数据的输入、输出、处理、调用的各个环节后,会对数据工场具体需求有一个全面的认识。 - - - ## 技术架构 ![输入图片说明](ProIMG/Im0bekTbfnilPyHVt1rWJA.png) @@ -93,19 +90,19 @@ ## 数据去重 -- URL去重 - 采用了redis集群 +- **URL去重** + 采用了redis集群 -- 内容去重 - 采用Elasticsearch内部的查询将文章标题一样的内容检索过滤掉。 +- **内容去重** -## 数据清洗 + 采用Elasticsearch内部的查询将文章标题一样的内容检索过滤掉。 -自动提取字段,标题、正文、时间、作者、来源 等。 +## 数据清洗 +自动提取字段,标题、正文、时间、作者、来源 等。 ## 数据标记