基于汉字字频特征实现99.99%准确率的新闻文本分类器(三)

基于汉字字频特征实现99.99%准确率的新闻文本分类器(一)

基于汉字字频特征实现99.99%准确率的新闻文本分类器(二)

基于汉字字频特征实现99.99%准确率的新闻文本分类器(三)

基于汉字字频特征实现99.99%准确率的新闻文本分类器(四)

基于汉字字频特征实现99.99%准确率的新闻文本分类器(五)

基于汉字字频特征实现99.99%准确率的新闻文本分类器(六)

回顾

上一节中,得到了汉字字频特征数据文件,并使用svm-train进行分类。初步得到了98.47%的准确率的二分类模型。本节将加载五层神经网络权值数据...

五层神经网络权值

这是一个比较大的文件,14.3M,压缩为 test.7z 保存在 http://pan.baidu.com/s/1bp2s7d9

文件的MD5校验码是 【319A4D527ECD7E538E6F52FAFE518BB4】

请下载并将其中的数据文件 test.bin 解压缩到D盘根目录下。

然后

源代码

点击下载五层神经网络文本分类源代码:NNR.zip (5.33 kb)

有关此源代码的详细说明,将在后续的文章中详解。现在,先让我们抓紧看到那个传说中的99...%

解压缩并打开其中的NNR.sln项目,如果文件位置都正确的话,直接运行,即可以看到结果:

这时候,一个五层神经网络已经开始忙碌的对汉字字频特征数据文件里的数据进行分类...中....

大约,在我的计算机上是15分钟,能看到结果:

嗯,如你所见,没有复杂的数据清洗,没有分词,没有选择关键词,仅仅使用汉字字频,我们得到了一个99.28%(如果您做过基于词频的中文文本分类项目,您更能体会这个准确率的含义。如果您有疑问,请暂时保持,稍后会详细解释)的分类模型。

小结

先中途总结一下。

目标:对搜狗文本分类语料库中的军事类新闻(C000024)和其它新闻做二分类。基于汉字字频特征,五层神经网络分类器,目前已经粗略的实现了一个99.28%准确率的二分类器。

如果你的反应够快的话,应该已经在等待的时候,打开了 d:\ClassFile\C000007\339.txt 这个文件。嗯,我们先粗略的看一下这些被分类错误的文本。

d:\ClassFile\C000007\339.txt

英国国防部发表声明说,遭到攻击后,作为防卫手段,英军打了3梭实弹

我承认如果让我来分类的话,我也会把这篇文章分入军事类新闻。

我把它们放置到了一个列表中,点击下载 勘误表.zip (9.46 kb)

如果您有耐心,通读这578篇 由五层神经网络给出判断的新闻资讯(这是一件非常费力的事,我承认,在找出了8篇真正分类错误的文章后,我失去了耐心),我相信,您已经有了您心中的答案。

 

下节预告

嗯,本节,我们用五层的人工神经网络模型,实现了一个军事新闻的文本分类器。它给出了99.28%的准确率。但是,如果您读过勘误表,相信您会说,这个勘误表,更像是对搜狗原始数据的勘误。

神经网络模型,没有陷入局部最优解,他近乎完美的完成了工作。如果您有异议,欢迎讨论!请联系我 zhanglei邮箱在qiantec.cn,请在标题注明中文文本分类,谢谢。

下节,我将逐个解释本文章提供的源代码。

 基于汉字字频特征实现99.99%准确率的新闻文本分类器(四)