频率分布比较

时间:2016-07-21 11:41:30

标签: python algorithm statistics nlp corpus

长话短说:我有两个语料库,想要比较两个词的频率分布,找出与Python中规范的最大差异。

EG:我使用行话来讨论论坛,我想确定这与控制/一般语料库之间的区别。这两个语料库的大小不同,我想控制一个根本没有术语的语料库,并使相对差异过大。

在我的研究中,我遇到了TF-IDF,但它不是为了比较,是否可以重新用于比较?

0 个答案:

没有答案