单词分布或熵的估计

时间:2018-07-10 10:35:20

标签: python statistics natural-language-processing

我有一个包含单词的列表(删除了单个外观)。我需要此列表的统计信息/估算值。也就是说,如果列表中有不同的单词,则估计值应给出第一个极值(min),否则,如果列表中只有一个单词,则估计值应给出另一个极值(max),因此其他估计值应介于最小和最大 示例:

list_1 = ['hi', 'hello', 'hi', 'hi', 'hello', 'Pep', 'Pep']
list_2 = ['hi', 'hi', 'hi', 'hi', 'hi', 'hi', 'hi']

可能会有第三个更大或更小的长度/尺寸列表,因此估算值应进行某种归一化以考虑该尺寸, 示例:

list_3 = ['git', 'git', 'hash', 'git', 'hash' ]

一种可能的方法是找到列表的直方图,然后找到2阶矩,或者如果估计是向量而不是标量,则找到更高阶矩。 List_1上的示例:

s_list_1 = ['hi', 'hi', 'hi', 'hello',  'hello', 'Pep', 'Pep']
histogram_s_list_1 = [3, 2, 2]
2nd_ord_moment_list_1 = (3^2+ 2^2+2^2)/N (where N=3, N=len(histogram_s_list_1))

由于我不是NLP专家,所以不确定直方图的二阶矩是否会实现。

NB。最小值最大值可能是相反的,而不是我所说的那样,例如list_1给出最大值而list_2给出最小值。

0 个答案:

没有答案