我的问题是this的延续。
在清理文本数据并使用wordcloud
对其进行可视化之后,我想查看哪些词相互关联。问题来了:
quanteda
具有功能textstat_simil
,但它说
相似性。那么,在这种情况下,“相似性”和“相关性”是否相同? (距离也有关系吗?)。
此外,我的 dfm 看起来像一个二进制矩阵。在这种情况下是phi
相关性(来自卡方统计)是否更表明?我可以吗
通过quanteda
计算出来吗?
感谢您的耐心!
答案 0 :(得分:1)
要计算功能之间Pearson的产品/时刻相关性,您可以使用:
textstat_simil(x, method = “correlation”, margin = “features”)
文档对此进行了明确说明,并且相关方法是默认方法。
Pearson的相关性不适用于二进制数据,并且我们目前还没有实施Spearman的相关性方法或其他更适用于分类或有序数据的相关性方法。但是,您始终可以将dfm强制转换为普通矩阵(使用as.matrix()
),然后使用stats::cor()
方法,其中包括Spearman方法。
对于最后一个问题,我们使用这些措施的标准实施方式。如果您想进一步了解它们的含义,建议您使用交叉验证。