我现在正在开展一个项目,试图扩展the LIWC dictionary以适应我们的当地语言(混合英语,印度尼西亚语,马来语和中文)。
我们使用单词嵌入模型在LIWC词典中找到与单词相似的单词,然后根据新词典计算得分。
LIWC字典的原始输出如下所示:
[53.2, 11.2,..., 85.01]
表示属于每个类别的单词的比例,类别包括:
['Function', 'Pronoun', 'Ppron', 'I', 'We', 'You', ... ,'Netspeak', 'Assent', 'Nonflu', 'Filler']
在扩展LIWC字典后,我想测试我们是否具有与原始LIWC类似的输出。然而,在扩展字典中的单词后,每个类别的比例肯定会增加。因此,如果我们比较变量之间的关系,我认为不是直接比较两个分数,我认为更有意义
更确切地说,我说原始输出dist1,
[d1v1, d1v2, ..., d1vp]
和我们扩展的词典dict2的输出,
[d2v1, d2v2, ..., d2vp]
其中p表示类别数。是否存在可以帮助我证明dist1中的变量之间的关系是否与dist2中的变量相似的测试?