This website works better with JavaScript.
Home
Issues
Pull Requests
Milestones
AI流水线
Repositories
Datasets
Forum
实训
竞赛
大数据
Register
Sign In
hummingbird
/
yuqing
Not watched
Unwatch
Watch all
Watch but not notify
2
Star
0
Fork
0
Code
Releases
13
Wiki
Activity
Issues
0
Pull Requests
0
Datasets
Model
Cloudbrain
Browse Source
update dataProcessing.md.
tags/v1.0.1-224.11141
思通数科 StoneDT
Gitee
2 years ago
parent
5473ff3d1d
commit
6ea9e42066
No known key found for this signature in database
GPG Key ID:
173E9B9CA92EEF8F
1 changed files
with
6 additions
and
0 deletions
Split View
Diff Options
Show Stats
Download Patch File
Download Diff File
+6
-0
dataProcessing.md
+ 6
- 0
dataProcessing.md
View File
@@ -69,21 +69,27 @@
分为多个部分存储,MySQL、redis、kafak、Elasticsearch、MongoDB、clickhouse。
- MySQL
在系统中储存两部分相关的信息内容,系统配置和临时脏数据储存。
- redis
在系统中除了作为系统缓存,还作为站点数据采集的index索引库。
- kafak
由于数据处理的过程比较多,而且数据量很大,因此采用分布式以及异步的方式对海量数据加工处理。
- Elasticsearch
储存加工好的数据,以及打上各种标签的数据,储存在分布式搜索中,这样便于用户对数据的检索。
- MongoDB
带样式的文章正文原始网页储存在MongoDB中。
- Clickhouse
将每篇文章指纹及海明距离储存在clickhouse中,以便于对相似度和文章主题聚类的计算。
Write
Preview
Loading…
Cancel
Save