我已经解析了许多xml文件来创建一个字典,其中包含每个单词以及该单词出现次数的计数。
我想知道字典中数量为1的单词的数量,以便稍后我可以用令牌替换它们并减少词汇量。
我手边没有字典,但它看起来类似于:
vocab = {'a': 17, 'the': 15, 'skeleton': 1, 'doctor': 3, 'house': 1, 'body': 2}
我希望输出为每个出现一次的单词以及多少单词符合该标准的计数。即:
(skeleton, house)
2
答案 0 :(得分:0)
有很多方法可以做到这一点,但使用列表推导将是我的偏好。例如,获取计数等于1的单词列表:
words = [k for (k, v) in vocab.iteritems() if v == 1]
得到计数:
len(words)