From 333769036945a43c082740a04b5dfb3e9ed04a95 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E6=80=9D=E9=80=9A=E6=95=B0=E7=A7=91=20StoneDT?= <13913853100@163.com> Date: Sun, 6 Mar 2022 07:58:24 +0000 Subject: [PATCH] update dataProcessing.md. --- dataProcessing.md | 17 ++++++++--------- 1 file changed, 8 insertions(+), 9 deletions(-) diff --git a/dataProcessing.md b/dataProcessing.md index 2fdcfd1..a15983e 100644 --- a/dataProcessing.md +++ b/dataProcessing.md @@ -77,7 +77,7 @@ - Elasticsearch - 储存加工好的数据,以及打上各种标签的数据,储存在分布式搜索中,这样便于用户对数据的检索。 + 储存加工好的数据、去掉样式的原文信息,以及打上各种标签的数据,储存在分布式搜索中,这样便于用户对数据的检索。 - MongoDB @@ -92,7 +92,7 @@ ## 数据去重 - **URL去重** - 采用了redis集群 + 采用了redis集群,让redis发挥天然的key/value魅力,把URL都存储在redis中。 - **内容去重** @@ -102,14 +102,15 @@ ## 数据清洗 -自动提取字段,标题、正文、时间、作者、来源 等。 + - 自动提取字段,标题、正文、时间、作者、来源 等。 + - 采用自动分类技术对 软文、广告文、敏感文章分类,并且对抓取信源屏蔽。 ## 数据标记 - **内容简介** - 我们自研了一套自然语言处理的API,我们对此也开放了出来,可以查阅 + 我们自研了一套自然语言处理的API,我们对此也开放了出来,可以查阅。 - **实体识别** @@ -117,7 +118,7 @@ - **情感分析** - 百度飞桨 + 百度飞桨,我们使用了 PaddleHub 深度学习框架并且采用了 [Senta模型](https://gitee.com/paddlepaddle/PaddleHub/blob/release/v1.7/docs/pretrained_models.md#%E6%83%85%E6%84%9F%E5%88%86%E6%9E%90) ,这个方案上手很简单,在百度飞桨官方网站上有详细内容,这里就不赘述了。 - **高频词分词** @@ -134,15 +135,13 @@ - **事件分类** - 自研算法 + 自研算法,采用文本分类算法和高频词以及自己开发了一个管理后台。 - **行业分类** - 自研算法 + 自研算法,采用文本分类算法和高频词以及自己开发了一个管理后台。 - - ## 数据运维 - 数据清理