有人向我提供了一个非常大的复制副本列表,用于制作长HTML文档。编辑格式为:
“宗教”应该是“宗教” “他们的”应该是“那里” “你必须坚持”应该是“你必须坚持不懈”
复制品是手工输入的;在某些情况下,左侧的“实际”值与文档中的内容不完全匹配。编辑顺序通常是正确的,但即使这样也无法保证。
将这些编辑手动应用于文档是一项简单但非常大的任务。我想尽可能地自动化这个过程,例如通过自动搜索片段。
在这样的长文档中,我不能只搜索“他们”的所有实例,而是用“那里”替换它们。有时“他们的”被正确使用,而不是在一个特定的实例中。
换句话说,我正在寻找模糊文本匹配,其中编辑的顺序会影响搜索。
对这样的问题有什么好处?我希望有一些现成的开源项目能够以模糊的顺序搜索片段。
答案 0 :(得分:1)
我不知道任何工具。但我会使用两者的编辑距离:
实施起来应该不难。但计算复杂度会很高。我会用一些启发式方法来跳过无望的比赛。在文档和编辑列表中预处理单词可能很好:为每个单词设置一组字符,以便在计算完整编辑距离之前进行快速比较)等。