From ca9587c6244921fe96af67f3c26826ebf6eae5e1 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E6=80=9D=E9=80=9A=E6=95=B0=E7=A7=91=20StoneDT?= <13913853100@163.com> Date: Sat, 19 Feb 2022 13:08:51 +0000 Subject: [PATCH] update dataProcessing.md. --- dataProcessing.md | 19 ++++++++++++++++--- 1 file changed, 16 insertions(+), 3 deletions(-) diff --git a/dataProcessing.md b/dataProcessing.md index 6947d14..8f10147 100644 --- a/dataProcessing.md +++ b/dataProcessing.md @@ -17,10 +17,16 @@ ## 数据总线 + 通过SmarterAPI与Elasticsearch对接,将内部整套数据处理流程完成后对外输出。 + ## 数据去重 -采用了redis集群 +- URL去重 + 采用了redis集群 + +- 内容去重 + 采用Elasticsearch内部的查询将文章标题一样的内容检索过滤掉。 ## 数据清洗 自动提取字段,标题、正文、时间、作者、来源 等。 @@ -43,6 +49,7 @@ ### 相似文章 + 将文章通过“海明距离”算法生成加密串码存储在clickhouse集群中,通过clickhouse距离查询方法实现,文章相似度聚类。 ### 事件分类 @@ -54,9 +61,15 @@ ## 数据存储 -分为多个部分存储,MySQL、redis、kafak、ES、mongodb、clickhouse +分为多个部分存储,MySQL、redis、kafak、Elasticsearch、Mongodb、clickhouse ## 数据运维 ### 数据清理 + +需要定期对 Elasticsearch、Mongodb 中存储的数据删除,同时还要将Mongodb中的表删除,否则磁盘空间容量不会减少。 + +### 数据备份 + + + -### 数据归档 \ No newline at end of file