Question

findAssocs（）不起作用，如下所示。＆＃34;清醒＆＃34;并且＆＃34;做梦＆＃34;在书中经常出现。

> docs <- tm_map(docs, stemDocument)
> dtm <- DocumentTermMatrix(docs)
> freq <- colSums(as.matrix(dtm))
> ord <- order(freq)
> freq[tail(ord)]
one experi   will   can lucid dream
287   312   363   452   1018   2413
> freq[head(ord)]
abbey abdomin   abdu abraham absent   abus
1       1       1       1       1       1
> findAssocs(dtm, "dream", corlimit=0.6)
$dream
numeric(0)
> findAssocs(dtm, "dream", corlimit=0.1)
$dream
numeric(0)
> findAssocs(dtm, "lucid", corlimit=0.1)
$lucid
numeric(0)
> findAssocs(dtm, "lucid", corlimit=0.6)
$lucid
numeric(0)
>

语料库是单个文档，是书籍的文本版本。此功能是否至少需要两个文件？如果是这样的话，如果我把这本书分成两半，我会得到关于这本书整体的相关性，或者关于两半如何相互比较？

Answer 1

它计算文档数量，忽略重复出现。

拆分，例如分为句子或段落。

r：为什么findAssocs（）不起作用？

1 个答案: