我有2个包含数千个元素的频率列表,而我也有2个包含少量元素的较小列表。我的想法是,我需要检查较小列表中的每个元素出现在频率列表中的次数,并进行比较,最后使用pandas程序包在表格中显示我的发现。
频率列表:
pos_freqdist = FreqDist(get_all_words(pos_train))
neg_freqdist = FreqDist(get_all_words(neg_train))
这是pos_freqdist实际显示的内容(它不只是打印所有肯定的单词,而是计算肯定评论中包含单词的频率):
FreqDist({'the': 6737, '.': 6513, ',': 6357, 'and': 3952, 'a': 3441, 'of': 3268, 'to': 2980, 'is': 2645, 'I': 2068, 'in': 1956, ...})
我还有2个较小的列表,其中包含一些情感词:
my_positive_word_list
my_negative_word_list
我正在数以千计的评论中检查这些词的正面/负面情绪,这些评论已经归类为正面和负面。
频率列表实际上算作字典吗?元组?我不确定。
答案 0 :(得分:0)
您可以像普通词典一样访问频率列表。
内部具有字典类型的结构,可加快访问速度
这就是为什么您可以进行pos_freqdist['the']
并显示 6737