Question

我有一个包含单词的列表（删除了单个外观）。我需要此列表的统计信息/估算值。也就是说，如果列表中有不同的单词，则估计值应给出第一个极值（min），否则，如果列表中只有一个单词，则估计值应给出另一个极值（max），因此其他估计值应介于最小和最大示例：

list_1 = ['hi', 'hello', 'hi', 'hi', 'hello', 'Pep', 'Pep']
list_2 = ['hi', 'hi', 'hi', 'hi', 'hi', 'hi', 'hi']

可能会有第三个更大或更小的长度/尺寸列表，因此估算值应进行某种归一化以考虑该尺寸，示例：

list_3 = ['git', 'git', 'hash', 'git', 'hash' ]

一种可能的方法是找到列表的直方图，然后找到2阶矩，或者如果估计是向量而不是标量，则找到更高阶矩。 List_1上的示例：

s_list_1 = ['hi', 'hi', 'hi', 'hello',  'hello', 'Pep', 'Pep']
histogram_s_list_1 = [3, 2, 2]
2nd_ord_moment_list_1 = (3^2+ 2^2+2^2)/N (where N=3, N=len(histogram_s_list_1))

由于我不是NLP专家，所以不确定直方图的二阶矩是否会实现。

NB。最小值最大值可能是相反的，而不是我所说的那样，例如list_1给出最大值而list_2给出最小值。

单词分布或熵的估计

0 个答案: