写在前面
昨天对于歌词只是进行了一个粗略的统计,并没有反映一个歌词的韵脚的情况。那么今天要做的就是先找出每篇歌词的韵脚,然后统计这个韵脚在所有歌词中出现的次数并且排序,再得到这些个韵脚对应的汉字出现的次数并且排序。
步骤
首先定义一个文件中每行的最后一个字的韵母的次数排名第一和第二(如果有的话)作为韵脚,然后至于统计和排序都和上一篇文章类似的,想具体了解的话可以看源码。
实践
继续看老狼,在百度音乐找到他的三个专辑(只找到这几个比较全的了)——北京的冬天、晴朗、恋恋风尘,开始爬虫:
node lyricCrawler.js
,下载歌词。统计韵脚:
node analyze.js
看统计结果:
cat analyzeRes.txt
结果展示
格式为:韵脚 : 在所有歌词的行尾出现的次数 -> 对应的汉字出现次数排名前5的汉字及其次数
1 | an : 148 -> 天:17,间:13,远:10,片:9,前:9 |
上述结果存在的小问题
就是获取多音字的韵母的问题:如“的”“了”“着”