应用错误收集

我有两个相似的文本（实际上是这样的一对）。为了说明它们在某种意义上是相似的：其中一个是原始书面文本，另一个是通过对第一个语音朗读的语音识别而获得的。因此，第二文本可能会有一些不一致之处（STT引擎无法识别的单词，说话者的插入或遗漏，标点符号丢失等），但是基本结构是相同的。我需要一些想法或算法来自动匹配两个文本的相应部分。在这个问题中，我问过要匹配对应的句子，因为它们似乎构成了自然的结构划分，但是其他任何可能性都很好。

如何匹配两个相似文本中的句子？

0 个答案: