我有两个按出现次数排序的单词列表
通过计算在不同时间点采样的两个文件中的每个单词来生成排序。
我想计算一下spearman,看看在第二个文件中找到第一个文件的顺序。
例如:
文件a:1)是2)去了3)工作
文件b:1)是2)工作3)去了
因为排序不同,我不会得到1.0的分数,但是那个表明这两个样本非常相似的分数
我的问题现在缺少值。文件A中可能不存在文件A的单词。在这种情况下,我可以使用spearman等级吗?或者是另一种更适合的相关度量?
答案 0 :(得分:3)
在排名方面,在您的应用程序中,您不需要缺少值。当一个单词在一个文件中出现但在另一个文件中没有出现时,您可以在另一个文件中给出它最后的排名(或者等于多个缺失值的最后排名)。
然而,我不确定对许多缺失值的Spearman值的影响(很多并列的最后排名)。您可以考虑在原始相对频率上使用标准相关/回归,而不是使用Spearman系数。
示例...
假设文件x有m = 113个单词,文件y有n = 234。我们可以创建一个相对字频率表,如下所示:
word x y
is 5/113 23/234
the 4/113 45/234
a 4/113 17/234
farnarkling 1/113 0/234
elbow 0/113 2/234
...
===============================
TOTAL 113/113 234/234
然后你会计算:
word x y u=x*y v=x*x
is 5/113 23/234 115/26442 25/12769
the 4/113 45/234 180/26442 16/12769
a 4/113 17/234 68/26442 16/12769
farnarkling 1/113 0/234 0/26442 1/12769
elbow 0/113 2/234 0/26442 0/12769
...
========================================================
TOTAL 113/113 234/234 s=(sum of u) t=(sum of v)
您的回答是由s / t给出的。接近m / n的值意味着良好的对应关系。
一些可能有用的链接是: