如何计算R中两个单词紧密相邻的文档?

时间:2016-08-25 08:04:16

标签: r text tm collocation

我想计算两个字符串在一定距离内出现的文档,彼此相差10个字。让我们说'德国*'和'战争'。  我不想计算它们出现的总次数,而只计算出现该组的文档数量(如果它出现一次,则将其计为一次)。

我知道如何计算包含单词的文档。但我不确定是否需要提取10克并查看这两个单词是否出现,然后根据每个文档计算,或者是否有更有效的方法。

1 个答案:

答案 0 :(得分:1)

此后是一个小函数,用于测试文本中两个单词是否小于100个字符。

target

它工作正常但应该进行改进以计算单词数量而不是字符数。