比较两个连续分布(LIWC得分)

时间:2017-10-03 06:21:49

标签: statistics distribution statistical-test

我现在正在开展一个项目,试图扩展the LIWC dictionary以适应我们的当地语言(混合英语,印度尼西亚语,马来语和中文)。 我们使用单词嵌入模型在LIWC词典中找到与单词相似的单词,然后根据新词典计算得分。

LIWC字典的原始输出如下所示:

[53.2, 11.2,..., 85.01]

表示属于每个类别的单词的比例,类别包括:

['Function', 'Pronoun', 'Ppron', 'I', 'We', 'You', ... ,'Netspeak', 'Assent', 'Nonflu', 'Filler']

在扩展LIWC字典后,我想测试我们是否具有与原始LIWC类似的输出。然而,在扩展字典中的单词后,每个类别的比例肯定会增加。因此,如果我们比较变量之间的关系,我认为不是直接比较两个分数,我认为更有意义 更确切地说,我说原始输出dist1,

[d1v1, d1v2, ..., d1vp]

和我们扩展的词典dict2的输出,

[d2v1, d2v2, ..., d2vp] 

其中p表示类别数。是否存在可以帮助我证明dist1中的变量之间的关系是否与dist2中的变量相似的测试?

0 个答案:

没有答案