From 277c7c8de60d5cf2ad0974109a39fb1ad6e10b78 Mon Sep 17 00:00:00 2001 From: gitclebeg Date: Mon, 13 Apr 2015 16:07:36 +0800 Subject: [PATCH] add text classification to model --- README.md | 14 +++++++------- 1 file changed, 7 insertions(+), 7 deletions(-) diff --git a/README.md b/README.md index 1627125..b2d7298 100644 --- a/README.md +++ b/README.md @@ -1,18 +1,18 @@ ##基于自然语言处理的情感分析工具 -#本程序依赖data目录下面的data.zip和dictionary.zip先解压缩 data 目录下面的 data.zip到当前目录。 +###本程序依赖data目录下面的data.zip和dictionary.zip先解压缩 data 目录下面的 data.zip到当前目录。 * 新增说明2:增加文本分类程序,目的是找出自己领域相关的文本,然后再从这个领域相关的文本中判断正负面。 ``` -+ 测试语料:data/text_classification.zip 解压缩即可 -+ 运行程序:LingPipeClassier 即可。 +测试语料:data/text_classification.zip 解压缩即可 +运行程序:LingPipeClassier 即可。 ``` * 新增说明1:2015-04-10测试了不用中文分词器,分词之后 LingPipe 情感分类的准确率,同时测试了去除停用词之后的情感分类的准确率。 ``` -+ 1) 发现用HanLP的NLPTokenizer分词器,准确率最高,但是速度有点慢。 -+ 2) 如果用HanLP的标准分词器就会准确率低一点点,但是速度快。 -+ 3) 分词之后去除停用词效果更加差。 -+ 4) 结巴分词效果不好,而且速度慢。 +1) 发现用HanLP的NLPTokenizer分词器,准确率最高,但是速度有点慢。 +2) 如果用HanLP的标准分词器就会准确率低一点点,但是速度快。 +3) 分词之后去除停用词效果更加差。 +4) 结巴分词效果不好,而且速度慢。 ``` ###1、基于词典和贝叶斯模型的情感分析 主程序:eshore.cn.it.sentiment.Sentiment 此类通过