Question

我正在努力学习中文的快捷方式。一个很棒的工具是在我阅读它出现的文本之前学习每个角色。

我想要一个读取文本文件的函数，识别每个汉字（或汉字）并按出现次数对它们进行分类。

在编程方面，我是一个完全的菜鸟，但我已经准备好用Python或其他任何我能学得很快的语言。

例如，输入：

我妹妹现在在北京

输出：

在 - 2
妹 - 2
我 - 1
现 - 1
北 - 1
京 - 1

提醒一下，有超过40,000汉字，尽管日常使用中有5000多个。

Answer 1

使用python3：

from collections import Counter

print(Counter(open("test.txt").read()))
Counter({'妹': 2, '在': 2, '现': 1, '京': 1, '我': 1, ' ': 1, '北': 1}

使用python 2使用io.open：

from io import open
print(Counter(open("test.txt").read()))
Counter({u'\u5728': 2, u'\u59b9': 2, u' ': 1, u'\u4eac': 1, u'\u6211': 1, u'\u73b0': 1, u'\u5317': 1})

计算文本文件中每个中文字符的出现次数

1 个答案: