计算文本文件中每个中文字符的出现次数

时间:2015-11-26 20:08:11

标签: python text character

我正在努力学习中文的快捷方式。一个很棒的工具是在我阅读它出现的文本之前学习每个角色。

我想要一个读取文本文件的函数,识别每个汉字(或汉字)并按出现次数对它们进行分类。

在编程方面,我是一个完全的菜鸟,但我已经准备好用Python或其他任何我能学得很快的语言。

例如,输入:

我妹妹现在在北京

输出:

在 - 2
妹 - 2
我 - 1
现 - 1
北 - 1
京 - 1

提醒一下,有超过40,000汉字,尽管日常使用中有5000多个。

1 个答案:

答案 0 :(得分:4)

使用python3:

from collections import Counter

print(Counter(open("test.txt").read()))
Counter({'妹': 2, '在': 2, '现': 1, '京': 1, '我': 1, ' ': 1, '北': 1}

使用python 2使用io.open

from io import open
print(Counter(open("test.txt").read()))
Counter({u'\u5728': 2, u'\u59b9': 2, u' ': 1, u'\u4eac': 1, u'\u6211': 1, u'\u73b0': 1, u'\u5317': 1})