标签: text pattern-matching similarity sentence-similarity textmatching
我有两个相似的文本(实际上是这样的一对)。 为了说明它们在某种意义上是相似的:其中一个是原始书面文本,另一个是通过对第一个语音朗读的语音识别而获得的。因此,第二文本可能会有一些不一致之处(STT引擎无法识别的单词,说话者的插入或遗漏,标点符号丢失等),但是基本结构是相同的。 我需要一些想法或算法来自动匹配两个文本的相应部分。在这个问题中,我问过要匹配对应的句子,因为它们似乎构成了自然的结构划分,但是其他任何可能性都很好。