如何检查段落是否是R中文本的一部分

时间:2017-02-08 13:15:45

标签: r text-mining

我有一个文本(一个单词的向量),我想看看它是否是长文本(单词的向量)的“部分”。但是,我知道这个段落没有出现在文本的确切形式中,但稍有改动:一些单词可能会错过,顺序可能略有不同,有些单词可能会插入括号内容等。

我目前正在“手动”实施解决方案,例如查看段落中的大多数单词是否在文本中,查看这些单词之间的距离,顺序等等... 然而,我想知道是否没有内置方法可以做到这一点?

我已经检查了tm包,但似乎没有这样做......

有什么想法吗?

1 个答案:

答案 0 :(得分:1)

我担心你会被手写一种方法,例如grep - 一些单词组并具有某种匹配阈值。