From 333769036945a43c082740a04b5dfb3e9ed04a95 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=E6=80=9D=E9=80=9A=E6=95=B0=E7=A7=91=20StoneDT?=
 <13913853100@163.com>
Date: Sun, 6 Mar 2022 07:58:24 +0000
Subject: [PATCH] update dataProcessing.md.

---
 dataProcessing.md | 17 ++++++++---------
 1 file changed, 8 insertions(+), 9 deletions(-)

diff --git a/dataProcessing.md b/dataProcessing.md
index 2fdcfd1..a15983e 100644
--- a/dataProcessing.md
+++ b/dataProcessing.md
@@ -77,7 +77,7 @@
 
 - Elasticsearch
 
-  储存加工好的数据，以及打上各种标签的数据，储存在分布式搜索中，这样便于用户对数据的检索。
+  储存加工好的数据、去掉样式的原文信息，以及打上各种标签的数据，储存在分布式搜索中，这样便于用户对数据的检索。
 
 - MongoDB
 
@@ -92,7 +92,7 @@
 ## 数据去重
 -   **URL去重** 
 
-    采用了redis集群
+    采用了redis集群，让redis发挥天然的key/value魅力，把URL都存储在redis中。
 
 
 - **内容去重** 
@@ -102,14 +102,15 @@
 
 ## 数据清洗
 
-自动提取字段，标题、正文、时间、作者、来源 等。
+  - 自动提取字段，标题、正文、时间、作者、来源 等。
+  - 采用自动分类技术对 软文、广告文、敏感文章分类，并且对抓取信源屏蔽。
 
 
 ## 数据标记
 
 - **内容简介**
 
-    我们自研了一套自然语言处理的API，我们对此也开放了出来，可以查阅
+    我们自研了一套自然语言处理的API，我们对此也开放了出来，可以查阅。
 
 - **实体识别**
 
@@ -117,7 +118,7 @@
 
 - **情感分析**
 
-  百度飞桨
+  百度飞桨，我们使用了 PaddleHub 深度学习框架并且采用了 [Senta模型](https://gitee.com/paddlepaddle/PaddleHub/blob/release/v1.7/docs/pretrained_models.md#%E6%83%85%E6%84%9F%E5%88%86%E6%9E%90) ，这个方案上手很简单，在百度飞桨官方网站上有详细内容，这里就不赘述了。
 
 - **高频词分词** 
 
@@ -134,15 +135,13 @@
 
 - **事件分类**
 
-    自研算法
+    自研算法，采用文本分类算法和高频词以及自己开发了一个管理后台。
 
 - **行业分类**
 
-    自研算法
+    自研算法，采用文本分类算法和高频词以及自己开发了一个管理后台。
     
 
-
-
 ## 数据运维
 - 数据清理