r:为什么findAssocs()不起作用?

时间:2015-04-22 20:21:02

标签: r data-mining correlation text-mining text-analysis

findAssocs()不起作用,如下所示。 "清醒"并且"做梦"在书中经常出现。

> docs <- tm_map(docs, stemDocument)
> dtm <- DocumentTermMatrix(docs)
> freq <- colSums(as.matrix(dtm))
> ord <- order(freq)
> freq[tail(ord)]
one experi   will   can lucid dream
287   312   363   452   1018   2413
> freq[head(ord)]
abbey abdomin   abdu abraham absent   abus
1       1       1       1       1       1
> findAssocs(dtm, "dream", corlimit=0.6)
$dream
numeric(0)
> findAssocs(dtm, "dream", corlimit=0.1)
$dream
numeric(0)
> findAssocs(dtm, "lucid", corlimit=0.1)
$lucid
numeric(0)
> findAssocs(dtm, "lucid", corlimit=0.6)
$lucid
numeric(0)
> 

语料库是单个文档,是书籍的文本版本。此功能是否至少需要两个文件?如果是这样的话,如果我把这本书分成两半,我会得到关于这本书整体的相关性,或者关于两半如何相互比较?

1 个答案:

答案 0 :(得分:1)

它计算文档数量,忽略重复出现。

拆分,例如分为句子或段落。