我有一个包含两列emailid和关键字的表,我正在转向(矩阵的种类),值是sql,例如列是不同的关键字,行是不同的用户,[emailid] [keyword]的值如果值存在则为1,如果不存在则为null,并且我试图找到关键字之间的相关性,即如果两个用户搜索了相同的关键字,那么这两个关键字之间存在相关性,我该如何实现?
答案 0 :(得分:0)
你应该用0替换null值来开始。您可能希望探索各种相关技术,如Pearson和Spearman相关性。
这是关于Pearson Correlation的页面:http://learntech.uwe.ac.uk/da/Default.aspx?pageid=1442
from scipy.stats.stats import pearsonr
a =[1.0001345,0.000656];b=[1.00001345,0.000656]
print pearsonr(a,b)[0]
这使得输出为1.0,这意味着总相关或正相关。 Pearson相关的输出从-1.0(最负相关)到1.0(高正相关)变化。这里0表示两个数据量之间没有相关性。
有关这方面的更多信息可以在以下网址找到: https://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.stats.pearsonr.html