闲来无事,想着自己也捣鼓了不少文字了,就用所学的知识统计一下词频,看看我的文字倾向。
统计词频的关键,肯定是分词,尤其对于中文来说不容易,一般需要建立词库才能分好中文的词汇,我上网找了半天,终于发现一个不错的nodejs版本的中文分词工具——node-segment,这个使用起来非常方便,谁用谁知道。接下来就是合并相同词语并排序了,这里的排序使用的是lodash。
说起来,其实这个分词工具最大的好处在于它对中文语法的词性进行了考虑,比如有形容词、区别词、连词、副词、叹词 、方位词、成语、习语等等。我这里就先对我博客中的所有文章的名词进行了统计。
照样直接上代码:
1 | /** |
对于前15的词语,请见下图:
由此可见嘛,我还是最爱电影啦,但是对于社会、政府、国家层面的各种问题我也是很关心的,此外我还重视个人自由、文化等方面,貌似很准嘛,呵呵!