This website works better with JavaScript.
Home
Issues
Pull Requests
Milestones
AI流水线
Repositories
Datasets
Forum
实训
竞赛
大数据
Register
Sign In
hummingbird
/
yuqing
Not watched
Unwatch
Watch all
Watch but not notify
2
Star
0
Fork
0
Code
Releases
13
Wiki
Activity
Issues
0
Pull Requests
0
Datasets
Model
Cloudbrain
Browse Source
update dataProcessing.md.
tags/v1.0.1-224.11141
思通数科 StoneDT
Gitee
2 years ago
parent
f57e237f04
commit
ca9587c624
No known key found for this signature in database
GPG Key ID:
173E9B9CA92EEF8F
1 changed files
with
16 additions
and
3 deletions
Split View
Diff Options
Show Stats
Download Patch File
Download Diff File
+16
-3
dataProcessing.md
+ 16
- 3
dataProcessing.md
View File
@@ -17,10 +17,16 @@
## 数据总线
通过SmarterAPI与Elasticsearch对接,将内部整套数据处理流程完成后对外输出。
## 数据去重
采用了redis集群
- URL去重
采用了redis集群
- 内容去重
采用Elasticsearch内部的查询将文章标题一样的内容检索过滤掉。
## 数据清洗
自动提取字段,标题、正文、时间、作者、来源 等。
@@ -43,6 +49,7 @@
### 相似文章
将文章通过“海明距离”算法生成加密串码存储在clickhouse集群中,通过clickhouse距离查询方法实现,文章相似度聚类。
### 事件分类
@@ -54,9 +61,15 @@
## 数据存储
分为多个部分存储,MySQL、redis、kafak、E
S、m
ongodb、clickhouse
分为多个部分存储,MySQL、redis、kafak、E
lasticsearch、M
ongodb、clickhouse
## 数据运维
### 数据清理
需要定期对 Elasticsearch、Mongodb 中存储的数据删除,同时还要将Mongodb中的表删除,否则磁盘空间容量不会减少。
### 数据备份
### 数据归档
Write
Preview
Loading…
Cancel
Save