@@ -0,0 +1,61 @@ | |||||
# 开源舆情 数据处理部分技术架构设计 | |||||
(待续,未完...) | |||||
## 简述 | |||||
经历了很多版本的迭代升级,期间采用过机器学习、深度学习、tensorflow 和 PaddlePaddle,经历大量的开发测试与项目实战经验。 | |||||
## 开源技术栈 | |||||
(开源技术清单) | |||||
## 总体技术架构 | |||||
(思维导图) | |||||
## 数据总线 | |||||
## 数据去重 | |||||
采用了redis集群 | |||||
## 数据清洗 | |||||
自动提取字段,标题、正文、时间、作者、来源 等。 | |||||
## 数据标记 | |||||
### 实体识别 | |||||
HaNLP | |||||
### 情感分析 | |||||
百度飞桨 | |||||
### 高频词分词 | |||||
- 自研算法 | |||||
### 文本分类 | |||||
### 相似文章 | |||||
### 事件分类 | |||||
自研算法 | |||||
### 行业分类 | |||||
自研算法 | |||||
## 数据存储 | |||||
分为多个部分存储,MySQL、redis、kafak、ES、mongodb、clickhouse | |||||
## 数据运维 | |||||
### 数据清理 | |||||
### 数据归档 |