应用错误收集

时间：2013-08-18 06:11:52

标签： search nlp fuzzy-search

有人向我提供了一个非常大的复制副本列表，用于制作长HTML文档。编辑格式为：

“宗教”应该是“宗教” “他们的”应该是“那里” “你必须坚持”应该是“你必须坚持不懈”

复制品是手工输入的;在某些情况下，左侧的“实际”值与文档中的内容不完全匹配。编辑顺序通常是正确的，但即使这样也无法保证。

将这些编辑手动应用于文档是一项简单但非常大的任务。我想尽可能地自动化这个过程，例如通过自动搜索片段。

在这样的长文档中，我不能只搜索“他们”的所有实例，而是用“那里”替换它们。有时“他们的”被正确使用，而不是在一个特定的实例中。

换句话说，我正在寻找模糊文本匹配，其中编辑的顺序会影响搜索。

对这样的问题有什么好处？我希望有一些现成的开源项目能够以模糊的顺序搜索片段。

答案 0 :(得分：1)

我不知道任何工具。但我会使用两者的编辑距离：

实施起来应该不难。但计算复杂度会很高。我会用一些启发式方法来跳过无望的比赛。在文档和编辑列表中预处理单词可能很好：为每个单词设置一组字符，以便在计算完整编辑距离之前进行快速比较）等。