Question

我现在正在开展一个项目，试图扩展the LIWC dictionary以适应我们的当地语言（混合英语，印度尼西亚语，马来语和中文）。我们使用单词嵌入模型在LIWC词典中找到与单词相似的单词，然后根据新词典计算得分。

LIWC字典的原始输出如下所示：

[53.2, 11.2,..., 85.01]

表示属于每个类别的单词的比例，类别包括：

['Function', 'Pronoun', 'Ppron', 'I', 'We', 'You', ... ,'Netspeak', 'Assent', 'Nonflu', 'Filler']

在扩展LIWC字典后，我想测试我们是否具有与原始LIWC类似的输出。然而，在扩展字典中的单词后，每个类别的比例肯定会增加。因此，如果我们比较变量之间的关系，我认为不是直接比较两个分数，我认为更有意义更确切地说，我说原始输出dist1，

[d1v1, d1v2, ..., d1vp]

和我们扩展的词典dict2的输出，

[d2v1, d2v2, ..., d2vp]

其中p表示类别数。是否存在可以帮助我证明dist1中的变量之间的关系是否与dist2中的变量相似的测试？