|
@@ -3,17 +3,19 @@ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
* 新增说明2:增加文本分类程序,目的是找出自己领域相关的文本,然后再从这个领域相关的文本中判断正负面。 |
|
|
* 新增说明2:增加文本分类程序,目的是找出自己领域相关的文本,然后再从这个领域相关的文本中判断正负面。 |
|
|
``` |
|
|
|
|
|
测试语料:data/text_classification.zip 解压缩即可 |
|
|
|
|
|
运行程序:LingPipeClassier 即可。 |
|
|
|
|
|
``` |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1. 测试语料:data/text_classification.zip 解压缩即可 |
|
|
|
|
|
2. 运行程序:LingPipeClassier 即可。 |
|
|
|
|
|
|
|
|
* 新增说明1:2015-04-10测试了不用中文分词器,分词之后 LingPipe 情感分类的准确率,同时测试了去除停用词之后的情感分类的准确率。 |
|
|
* 新增说明1:2015-04-10测试了不用中文分词器,分词之后 LingPipe 情感分类的准确率,同时测试了去除停用词之后的情感分类的准确率。 |
|
|
``` |
|
|
|
|
|
1) 发现用HanLP的NLPTokenizer分词器,准确率最高,但是速度有点慢。 |
|
|
|
|
|
2) 如果用HanLP的标准分词器就会准确率低一点点,但是速度快。 |
|
|
|
|
|
3) 分词之后去除停用词效果更加差。 |
|
|
|
|
|
4) 结巴分词效果不好,而且速度慢。 |
|
|
|
|
|
``` |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1. 发现用HanLP的NLPTokenizer分词器,准确率最高,但是速度有点慢。 |
|
|
|
|
|
2. 如果用HanLP的标准分词器就会准确率低一点点,但是速度快。 |
|
|
|
|
|
3. 分词之后去除停用词效果更加差。 |
|
|
|
|
|
4. 结巴分词效果不好,而且速度慢。 |
|
|
|
|
|
|
|
|
###1、基于词典和贝叶斯模型的情感分析 |
|
|
###1、基于词典和贝叶斯模型的情感分析 |
|
|
主程序:eshore.cn.it.sentiment.Sentiment 此类通过 |
|
|
主程序:eshore.cn.it.sentiment.Sentiment 此类通过 |
|
|
data/Sentiment_Dictionary中的正负面词语建立模型。 |
|
|
data/Sentiment_Dictionary中的正负面词语建立模型。 |
|
|