基于汉字字频特征实现99.99%准确率的新闻文本分类器(六)
基于汉字字频特征实现99.99%准确率的新闻文本分类器(一)
基于汉字字频特征实现99.99%准确率的新闻文本分类器(二)
基于汉字字频特征实现99.99%准确率的新闻文本分类器(三)
基于汉字字频特征实现99.99%准确率的新闻文本分类器(四)
基于汉字字频特征实现99.99%准确率的新闻文本分类器(五)
基于汉字字频特征实现99.99%准确率的新闻文本分类器(六)
回顾
上 一节中,我们看到了五层神经网络的权值矩阵,其实,我们离一个秘密很近。
在我展示这个文本分类算法的时候,有人问我,用的什么中文分词器?关键词选择算法是什么?... ...
我一开始无言以对。因为,压根我就没有使用分词、切词、筛选关键词这些技术。更谈不上使用的是中科院的分词器还是...
但是,现在我可以给出一些...秘密!
秘密
上节提到,临近输入层的权值向量蕴藏了一个秘密!
-0.326 0.153 -0.086 -0.526 -0.642 -0.692 0.034 -0.295 -0.182 0.027 -0.489 -0.069 -0.226 -0.293 0.089 -0.335 -0.129 -0.137 0.072 0.102
这是紧挨着输入层的权值矩阵的前20个权值。这样看不出来什么。但是,如果,这样看:
-0.326 0.153 -0.086 -0.526 -0.642 -0.692 0.034 -0.295 -0.182 0.027 -0.489 -0.069 -0.226 -0.293 0.089 -0.335 -0.129 -0.137 0.072 0.102 的 一 是 在 有 不 人 了 中 国 大 为 上 这 年 个 和 以 生 时
上面的汉字,来源于输入向量对应的字频的字基。
大的权值代表了此字对最终成功分类有更大的贡献。所以,如果对权值进行计算,就可以得到那些对军事类新闻分类贡献特别高的字,然后,每个神经元对这些字的关联,会有组词的概念。
世界上本没有路,走的人多了,就有了路。
世界上本没有词,有些汉字总是一起使用,所以世界上出现了词组。
虽然我没有使用分词和词频的概念,但是,在99.99% 的成功分类军事类新闻后,我能给出那些对军事类新闻分类成功贡献最多的..................“词”!
聚字成词
通过使用字频的字基的权值,我使用神经网络输出了一个聚字成词的列表,这里是前64个军事类敏感二字词:
0 中国 34342 1 美国 26794 2 导弹 19980 3 军事 18834 4 日本 14801 5 系统 14658 6 武器 13867 7 海军 13833 8 部队 12773 9 作战 12398 10 进行 11951 11 装备 10965 12 演习 10875 13 技术 10490 14 能力 9743 15 国防 9720 16 国家 9615 17 空军 9515 18 一个 9401 19 发展 9240 20 美军 9203 21 联合 8461 22 飞机 7895 23 国的 7469 24 我们 7467 25 计划 7268 26 战争 7137 27 公司 7027 28 报道 6842 29 问题 6710 30 军队 6483 31 飞行 6347 32 目前 6233 33 目标 6082 34 可以 6075 35 可能 5901 36 航空 5775 37 安全 5731 38 的军 5714 39 工作 5604 40 他们 5511 41 国军 5485 42 任务 5414 43 世界 5392 44 地区 5361 45 解放 5335 46 的一 5220 47 台军 5138 48 放军 5069 49 信息 5061 50 使用 5060 51 资料 5016 52 防部 5006 53 的战 4992 54 合作 4989 55 研制 4973 56 军的 4970 57 国际 4930 58 研究 4882 59 国海 4852 60 方面 4822 61 开始 4821 62 相关 4677 63 战机 4652 64 同时 4545
这个列表里的有一些不正常的词,筛选如下:
23 国的 7469 38 的军 5714 46 的一 5220 48 放军 5069 52 防部 5006 53 的战 4992 56 军的 4970 59 国海 4852
就像大家看到“我的”不会感觉奇怪一样,如果“国的”“军的”使用频率非常高的话,就可以成为一个新的词。其它的不正常词,可以看作是三字词的部分。由于我这里聚词的只做了二字词聚词,所以会有这些问题词的出现。读者可以尝试去聚出更多的多字词。供参考,我在实验的时候,聚出了【叙利亚、伊拉克、朝鲜】等词。
前文提到,我对搜狗的分类预料库做了一个简单的数据清洗,而让我意识到需要做数据清洗及找到污染文字的途径就是原始版本的聚词结果,第一个高贡献的词是“网页”,让我很奇怪为什么【网页】这个词对成功分类也有莫大的影响。
总结及其它
汉字作为这颗蓝星上唯一现存的表意文字,二维图像文字,在语言处理上有莫大的优势。比如对英文来说:chicken、hen、egg、rooster它们的词面直观距离太远,而对于一个三岁的中国小朋友,小鸡,鸡蛋,公鸡,母鸡是非常靠近并易于理解掌握。
汉字是表意的,本系列文章所描述的文本分类方法,同样可以适用字母文字。只需要将相应的字母词翻译为中文,即可获得文本分类准确率的提升!
如果有人还有疑问,我只能再举一个例子:
对于一篇中文新闻资讯来说,它可以读作粤语发音,也可以读作普通话发音,也可以读作上海话,也可以读作四川话... ...也可以读作英文,也可以读作法文... ... 逻辑上如果这些发音都有自己独特的字母词的话,只要翻译成汉字,即可99.99%准确率被成功分类!
本人一直致力于神经网络相关的研究并有所领悟。本文只是我的神经网络算法在文本处理领域的一次简单尝试。我的联系方式zhanglei爱特qiantec.cn,我有一个独特而有效的人工智能算法,擅长海量数据挖掘,致力于召唤出人工意识。转载请注明原作者张磊和本站连接 http://www.qiantec.cn
由于cnblogs csdn等博客系统在复制的时候会丢失部分格式,最终文章以原始(本)网站为准。
感谢您百忙之中能够有时间与耐心读到这里。谢谢。
未完成的任务
希望有人能从这个系列的文章中得到启发
1、表音字母类文本的中文化汉字字频分类研究
2、基于汉字字频权值的自动聚字成词研究
谢谢大家。
基于汉字字频特征实现99.99%准确率的新闻文本分类器(一)
基于汉字字频特征实现99.99%准确率的新闻文本分类器(二)
基于汉字字频特征实现99.99%准确率的新闻文本分类器(三)
基于汉字字频特征实现99.99%准确率的新闻文本分类器(四)
基于汉字字频特征实现99.99%准确率的新闻文本分类器(五)
基于汉字字频特征实现99.99%准确率的新闻文本分类器(六)
(全文完)