来自包tm的findAssocs问题

时间:2012-09-27 20:26:39

标签: r text-mining

我试图使用tm包找到与期限文档矩阵中的特定单词相关联的单词。

我正在使用findAssocs来执行此操作。 findAssocs的参数是:

  • x:术语 - 文档矩阵。
  • term:持有一个词的角色。
  • corlimit:较低相关界限的数字。

我一直以numeric(0)为结果

示例:

findAssocs(test.dtm, "investment", 0.90)
>numeric(0)

有没有人熟悉findAssocs并知道我做错了什么?或者是否有人更广泛地了解numeric(0)结果可能意味着什么?

非常感谢您提前寻求帮助。

4 个答案:

答案 0 :(得分:2)

此结果表明0.90文档中没有与“投资”相关的词语。尝试使用像0.05这样的较低阈值,然后逐步达到产生较少术语的阈值。

答案 1 :(得分:2)

我得到相同的numeric(0),我认为这是因为Corpus中只有一个文档,因此document term matrix只有一列。您可能需要测试TermDocumentMatrix(),看看您是否有multi-column matrix。 也就是说,如何在一个文档中找到关联?。

答案 2 :(得分:0)

看起来此功能仅在分析多个文本文档时有效。我提出的唯一可行的解​​决方案是创建文本文档的副本,然后运行分析。但是,不确定这是否会以任何方式改变结果。任何额外的反馈将不胜感激。

答案 3 :(得分:0)

我认为这也与您的数据文件有关。文本文件应该可以工作,但如果它是只有一列的 .csv,您将获得 (0)