| @@ -7,20 +7,21 @@ | |||||
| ###本程序依赖data目录下面的data.zip和dictionary.zip先解压缩 data 目录下面的 data.zip到当前目录。 | ###本程序依赖data目录下面的data.zip和dictionary.zip先解压缩 data 目录下面的 data.zip到当前目录。 | ||||
| * 新增说明3:增加基于 TF-IDF(词向量) 特征的文本分类程序。 | * 新增说明3:增加基于 TF-IDF(词向量) 特征的文本分类程序。 | ||||
| 1. 主程序:DfIdfClassifier | |||||
| 1. 主程序:DfIdfClassifier.java | |||||
| 2. 效果 | 2. 效果 | ||||
| ``` | |||||
| CATEGORY nment others | CATEGORY nment others | ||||
| government 233 46 | government 233 46 | ||||
| others 110 390 | others 110 390 | ||||
| 准确度: 0.8 | 准确度: 0.8 | ||||
| 总共正确数 : 623 | 总共正确数 : 623 | ||||
| 总数:779 | 总数:779 | ||||
| ``` | |||||
| * 新增说明2:增加基于 N-Gram(词向量) 特征的文本分类程序,目的是找出自己领域相关的文本,然后再从这个领域相关的文本中判断正负面。 | * 新增说明2:增加基于 N-Gram(词向量) 特征的文本分类程序,目的是找出自己领域相关的文本,然后再从这个领域相关的文本中判断正负面。 | ||||
| 1. 测试语料:data/text_classification.zip 解压缩即可 | 1. 测试语料:data/text_classification.zip 解压缩即可 | ||||
| 2. 运行程序:NGramClassifier 即可。 | |||||
| 2. 运行程序:NGramClassifier.java 即可。 | |||||
| ``` | |||||
| 效果: | 效果: | ||||
| Total Accuracy=0.9550706033376123 | Total Accuracy=0.9550706033376123 | ||||
| 95% Confidence Interval=0.9550706033376123 +/- 0.014546897368198444 | 95% Confidence Interval=0.9550706033376123 +/- 0.014546897368198444 | ||||
| @@ -29,7 +30,7 @@ reference \ response | |||||
| government,others | government,others | ||||
| government 271, 8 | government 271, 8 | ||||
| others 27, 473 | others 27, 473 | ||||
| ``` | |||||
| * 新增说明1:2015-04-10测试了不用中文分词器,分词之后 LingPipe 情感分类的准确率,同时测试了去除停用词之后的情感分类的准确率。 | * 新增说明1:2015-04-10测试了不用中文分词器,分词之后 LingPipe 情感分类的准确率,同时测试了去除停用词之后的情感分类的准确率。 | ||||