我有一个文本(一个单词的向量),我想看看它是否是长文本(单词的向量)的“部分”。但是,我知道这个段落没有出现在文本的确切形式中,但稍有改动:一些单词可能会错过,顺序可能略有不同,有些单词可能会插入括号内容等。
我目前正在“手动”实施解决方案,例如查看段落中的大多数单词是否在文本中,查看这些单词之间的距离,顺序等等... 然而,我想知道是否没有内置方法可以做到这一点?
我已经检查了tm
包,但似乎没有这样做......
有什么想法吗?
答案 0 :(得分:1)
我担心你会被手写一种方法,例如grep
- 一些单词组并具有某种匹配阈值。