应用错误收集

如何检查段落是否是R中文本的一部分

时间：2017-02-08 13:15:45

标签： r text-mining

我有一个文本（一个单词的向量），我想看看它是否是长文本（单词的向量）的“部分”。但是，我知道这个段落没有出现在文本的确切形式中，但稍有改动：一些单词可能会错过，顺序可能略有不同，有些单词可能会插入括号内容等。

我目前正在“手动”实施解决方案，例如查看段落中的大多数单词是否在文本中，查看这些单词之间的距离，顺序等等... 然而，我想知道是否没有内置方法可以做到这一点？

我已经检查了tm包，但似乎没有这样做......

有什么想法吗？

1 个答案:

答案 0 :(得分：1)

我担心你会被手写一种方法，例如grep - 一些单词组并具有某种匹配阈值。