应用错误收集

时间：2011-10-29 00:47:40

标签： text diff text-processing

作为雄心勃勃的项目的一部分，我试图更好地理解写入美国国会提出的法案的立法文本。我有最近账单的电子版本，并且我试图实施一种算法，将账单与之前的账单进行比较，寻找相似之处。假设是许多失败的账单最终被纳入其他账单。

显然，这是一项艰巨的任务。关于差异引擎存在许多问题，但我的问题略有不同。很多时候会引入将几个想法融合在一起的法案。因此差异引擎需要比较部分账单，而不是整个账单。

有关差异算法的任何建议或执行此操作的方法？我可以获得严格的计算能力，但请记住，我将使用大约100,000张账单的数据集。

答案 0 :(得分：1)

看看Simian - Similarity Analyser。它适用于纯文本和代码。

答案 1 :(得分：1)

非常有趣的想法。我将首先研究longest common subsequence算法，并了解如何使它们适应（1）报告任何序列超过某个阈值，比如20个单词，以及（2）看看你是否能得到如果一两个字改变，他们会处理一些模糊性。我建议看一下diff代码来启动。