Browse Source

update dataProcessing.md.

tags/v1.0.1-309.1147
思通数科 StoneDT Gitee 2 years ago
parent
commit
3337690369
No known key found for this signature in database GPG Key ID: 173E9B9CA92EEF8F
1 changed files with 8 additions and 9 deletions
  1. +8
    -9
      dataProcessing.md

+ 8
- 9
dataProcessing.md View File

@@ -77,7 +77,7 @@
- Elasticsearch - Elasticsearch
储存加工好的数据,以及打上各种标签的数据,储存在分布式搜索中,这样便于用户对数据的检索。
储存加工好的数据、去掉样式的原文信息,以及打上各种标签的数据,储存在分布式搜索中,这样便于用户对数据的检索。
- MongoDB - MongoDB
@@ -92,7 +92,7 @@
## 数据去重 ## 数据去重
- **URL去重** - **URL去重**
采用了redis集群
采用了redis集群,让redis发挥天然的key/value魅力,把URL都存储在redis中。
- **内容去重** - **内容去重**
@@ -102,14 +102,15 @@
## 数据清洗 ## 数据清洗
自动提取字段,标题、正文、时间、作者、来源 等。
- 自动提取字段,标题、正文、时间、作者、来源 等。
- 采用自动分类技术对 软文、广告文、敏感文章分类,并且对抓取信源屏蔽。
## 数据标记 ## 数据标记
- **内容简介** - **内容简介**
我们自研了一套自然语言处理的API,我们对此也开放了出来,可以查阅
我们自研了一套自然语言处理的API,我们对此也开放了出来,可以查阅
- **实体识别** - **实体识别**
@@ -117,7 +118,7 @@
- **情感分析** - **情感分析**
百度飞桨
百度飞桨,我们使用了 PaddleHub 深度学习框架并且采用了 [Senta模型](https://gitee.com/paddlepaddle/PaddleHub/blob/release/v1.7/docs/pretrained_models.md#%E6%83%85%E6%84%9F%E5%88%86%E6%9E%90) ,这个方案上手很简单,在百度飞桨官方网站上有详细内容,这里就不赘述了。
- **高频词分词** - **高频词分词**
@@ -134,15 +135,13 @@
- **事件分类** - **事件分类**
自研算法
自研算法,采用文本分类算法和高频词以及自己开发了一个管理后台。
- **行业分类** - **行业分类**
自研算法
自研算法,采用文本分类算法和高频词以及自己开发了一个管理后台。
## 数据运维 ## 数据运维
- 数据清理 - 数据清理


Loading…
Cancel
Save