|
|
@@ -10,11 +10,16 @@ |
|
|
|
(开源技术清单)
|
|
|
|
|
|
|
|
|
|
|
|
## 总体技术架构
|
|
|
|
## 技术架构
|
|
|
|
|
|
|
|
(思维导图)
|
|
|
|
|
|
|
|
|
|
|
|
## 数据处理流程
|
|
|
|
![输入图片说明](ProIMG/20220219-234818.png)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
## 数据总线
|
|
|
|
|
|
|
|
通过SmarterAPI与Elasticsearch对接,将内部整套数据处理流程完成后对外输出。
|
|
|
@@ -35,7 +40,7 @@ |
|
|
|
## 数据标记
|
|
|
|
|
|
|
|
### 实体识别
|
|
|
|
HaNLP
|
|
|
|
- 在HaNLP的基础上进行训练和二次开发,在实战的过程中收集数据样本以及对数据样本标注是最痛苦的事情,为此,我们还开发了一款可以辅助人工标记的工具。
|
|
|
|
|
|
|
|
### 情感分析
|
|
|
|
百度飞桨
|
|
|
@@ -53,15 +58,34 @@ |
|
|
|
|
|
|
|
### 事件分类
|
|
|
|
|
|
|
|
自研算法
|
|
|
|
- 自研算法
|
|
|
|
|
|
|
|
### 行业分类
|
|
|
|
|
|
|
|
自研算法
|
|
|
|
- 自研算法
|
|
|
|
|
|
|
|
## 数据存储
|
|
|
|
|
|
|
|
分为多个部分存储,MySQL、redis、kafak、Elasticsearch、Mongodb、clickhouse
|
|
|
|
分为多个部分存储,MySQL、redis、kafak、Elasticsearch、MongoDB、clickhouse。
|
|
|
|
|
|
|
|
- MySQL
|
|
|
|
在系统中储存两部分相关的信息内容,系统配置和临时脏数据储存。
|
|
|
|
|
|
|
|
- redis
|
|
|
|
在系统中除了作为系统缓存,还作为站点数据采集的index索引库。
|
|
|
|
|
|
|
|
- kafak
|
|
|
|
由于数据处理的过程比较多,而且数据量很大,因此采用分布式以及异步的方式对海量数据加工处理。
|
|
|
|
|
|
|
|
- Elasticsearch
|
|
|
|
储存加工好的数据,以及打上各种标签的数据,储存在分布式搜索中,这样便于用户对数据的检索。
|
|
|
|
|
|
|
|
- MongoDB
|
|
|
|
带样式的文章正文原始网页储存在MongoDB中。
|
|
|
|
|
|
|
|
- Clickhouse
|
|
|
|
将每篇文章指纹及海明距离储存在clickhouse中,以便于对相似度和文章主题聚类的计算。
|
|
|
|
|
|
|
|
|
|
|
|
## 数据运维
|
|
|
|
### 数据清理
|
|
|
|