diff --git a/README b/README deleted file mode 100644 index 7002d09..0000000 --- a/README +++ /dev/null @@ -1,23 +0,0 @@ -基于自然语言处理的情感分析工具 -本程序依赖data目录下面的data.zip和dictionary.zip先解压缩 data 目录下面的 data.zip到当前目录。 - - - -*新增说明1:2015-04-10测试了不用中文分词器,分词之后 LingPipe 情感分类的准确率,同时测试了去除停用词之后的情感分类的准确率。 -1) 发现用HanLP的NLPTokenizer分词器,准确率最高,但是速度有点慢。 -2) 如果用HanLP的标准分词器就会准确率低一点点,但是速度快。 -3) 分词之后去除停用词效果更加差。 -4) 结巴分词效果不好,而且速度慢。 - -1、基于词典和贝叶斯模型的情感分析 -主程序:eshore.cn.it.sentiment.Sentiment 此类通过 -data/Sentiment_Dictionary中的正负面词语建立模型。 - -测试: eshore.cn.it.sentiment.SentimentTest -通过这个类就可以测试 data/500trainblogxml中的某个文件夹下面的博客的情感。 - -2、直接利用lingpipe的情感分析模块测试情感分析 -直接运行程序: eshore.cn.it.sentiment.ChinesePolarityBasic -程序就会通过: data/polarity_corpus/hotel_reviews/train2训练 -然后自动测试: data/polarity_corpus/hotel_reviews/test2 -最后给出程序测试结果。 \ No newline at end of file diff --git a/README.md b/README.md new file mode 100644 index 0000000..34963d6 --- /dev/null +++ b/README.md @@ -0,0 +1,29 @@ +##基于自然语言处理的情感分析工具 +#本程序依赖data目录下面的data.zip和dictionary.zip先解压缩 data 目录下面的 data.zip到当前目录。 + + + +* 新增说明1:2015-04-10测试了不用中文分词器,分词之后 LingPipe 情感分类的准确率,同时测试了去除停用词之后的情感分类的准确率。 ++ 1) 发现用HanLP的NLPTokenizer分词器,准确率最高,但是速度有点慢。 ++ 2) 如果用HanLP的标准分词器就会准确率低一点点,但是速度快。 ++ 3) 分词之后去除停用词效果更加差。 ++ 4) 结巴分词效果不好,而且速度慢。 + +###1、基于词典和贝叶斯模型的情感分析 +主程序:eshore.cn.it.sentiment.Sentiment 此类通过 +data/Sentiment_Dictionary中的正负面词语建立模型。 + +测试: eshore.cn.it.sentiment.SentimentTest +通过这个类就可以测试 data/500trainblogxml中的某个文件夹下面的博客的情感。 + +###2、直接利用lingpipe的情感分析模块测试情感分析 +直接运行程序: eshore.cn.it.sentiment.ChinesePolarityBasic +程序就会通过: data/polarity_corpus/hotel_reviews/train2训练 +然后自动测试: data/polarity_corpus/hotel_reviews/test2 +最后给出程序测试结果。 + +``` + # Test Cases=4000 + # Correct=3541 + % Correct=0.88525 +``` \ No newline at end of file