我可以使用哪些方法来计算Quanteda中单词之间的相关性?

时间:2019-01-16 17:00:32

标签: r nlp correlation quanteda

我的问题是this的延续。

在清理文本数据并使用wordcloud对其进行可视化之后,我想查看哪些词相互关联。问题来了:

  1. quanteda具有功能textstat_simil,但它说 相似性。那么,在这种情况下,“相似性”和“相关性”是否相同? (距离也有关系吗?)。

  2. 此外,我的 dfm 看起来像一个二进制矩阵。在这种情况下是phi     相关性(来自卡方统计)是否更表明?我可以吗     通过quanteda计算出来吗?

  3. 你们还有其他内容,而不是         github上更详细地解释了计算方法         相似性还是距离度量? (我无法理解         this         代码,对不起)。

感谢您的耐心!

1 个答案:

答案 0 :(得分:1)

要计算功能之间Pearson的产品/时刻相关性,您可以使用:

textstat_simil(x, method = “correlation”, margin = “features”)

文档对此进行了明确说明,并且相关方法是默认方法。

Pearson的相关性不适用于二进制数据,并且我们目前还没有实施Spearman的相关性方法或其他更适用于分类或有序数据的相关性方法。但是,您始终可以将dfm强制转换为普通矩阵(使用as.matrix()),然后使用stats::cor()方法,其中包括Spearman方法。

对于最后一个问题,我们使用这些措施的标准实施方式。如果您想进一步了解它们的含义,建议您使用交叉验证。