我正在努力学习中文的快捷方式。一个很棒的工具是在我阅读它出现的文本之前学习每个角色。
我想要一个读取文本文件的函数,识别每个汉字(或汉字)并按出现次数对它们进行分类。
在编程方面,我是一个完全的菜鸟,但我已经准备好用Python或其他任何我能学得很快的语言。
例如,输入:
我妹妹现在在北京
输出:
在 - 2
妹 - 2
我 - 1
现 - 1
北 - 1
京 - 1
提醒一下,有超过40,000汉字,尽管日常使用中有5000多个。
答案 0 :(得分:4)
使用python3:
from collections import Counter
print(Counter(open("test.txt").read()))
Counter({'妹': 2, '在': 2, '现': 1, '京': 1, '我': 1, ' ': 1, '北': 1}
使用python 2使用io.open
:
from io import open
print(Counter(open("test.txt").read()))
Counter({u'\u5728': 2, u'\u59b9': 2, u' ': 1, u'\u4eac': 1, u'\u6211': 1, u'\u73b0': 1, u'\u5317': 1})