使用R在文本中的相关性

时间:2011-10-10 20:59:09

标签: r text correlation

我的数据看起来像(例子)

ID     Col1     Col2
1232   ABCSD    abd
2342   ABCSD    esw
7643   ABCSD    rty
9821   ETHS     fvc

我有2845428个这样的行。我想了解Col1Col2中每对的关联程度。例如

ABCSD     abd     0.64
ETHS      fvc     0.23

我怎样才能使用R?感谢

1 个答案:

答案 0 :(得分:1)

我认为,通过相关性,你的意思是“ABCSD观察的哪一部分在Col2中已经消失了......”

如果您的数据位于名为df的数据框中,

#get the absolute frequency
freqs <- ftable(df[,2:3])  

#convert to relative frequency
freqs <- freqs/rowSums(freqs)

#then to get the format you want
library(reshape)
freqs <- melt(freqs)