匹配HTML文档中的代码段

时间:2013-08-18 06:11:52

标签: search nlp fuzzy-search

有人向我提供了一个非常大的复制副本列表,用于制作长HTML文档。编辑格式为:

  “宗教”应该是“宗教”   “他们的”应该是“那里”   “你必须坚持”应该是“你必须坚持不懈”

复制品是手工输入的;在某些情况下,左侧的“实际”值与文档中的内容不完全匹配。编辑顺序通常是正确的,但即使这样也无法保证。

将这些编辑手动应用于文档是一项简单但非常大的任务。我想尽可能地自动化这个过程,例如通过自动搜索片段。

在这样的长文档中,我不能只搜索“他们”的所有实例,而是用“那里”替换它们。有时“他们的”被正确使用,而不是在一个特定的实例中。

换句话说,我正在寻找模糊文本匹配,其中编辑的顺序会影响搜索。

对这样的问题有什么好处?我希望有一些现成的开源项目能够以模糊的顺序搜索片段。

1 个答案:

答案 0 :(得分:1)

我不知道任何工具。但我会使用两者的编辑距离:

  1. 用于非精确字符串匹配:可能是std。 Levenstein +交换(即Damerau-Levenstein距离)
  2. 用于非精确序列匹配:此时可能仅适用于匹配和交换操作。您可以使用免费(零成本)插入来获取不应编辑的单词。
  3. 实施起来应该不难。但计算复杂度会很高。我会用一些启发式方法来跳过无望的比赛。在文档和编辑列表中预处理单词可能很好:为每个单词设置一组字符,以便在计算完整编辑距离之前进行快速比较)等。