立法的差异算法

时间:2011-10-29 00:47:40

标签: text diff text-processing

作为雄心勃勃的项目的一部分,我试图更好地理解写入美国国会提出的法案的立法文本。我有最近账单的电子版本,并且我试图实施一种算法,将账单与之前的账单进行比较,寻找相似之处。假设是许多失败的账单最终被纳入其他账单。

显然,这是一项艰巨的任务。关于差异引擎存在许多问题,但我的问题略有不同。很多时候会引入将几个想法融合在一起的法案。因此差异引擎需要比较部分账单,而不是整个账单。

有关差异算法的任何建议或执行此操作的方法?我可以获得严格的计算能力,但请记住,我将使用大约100,000张账单的数据集。

2 个答案:

答案 0 :(得分:1)

看看Simian - Similarity Analyser。它适用于纯文本和代码。

答案 1 :(得分:1)

非常有趣的想法。我将首先研究longest common subsequence算法,并了解如何使它们适应(1)报告任何序列超过某个阈值,比如20个单词,以及(2)看看你是否能得到如果一两个字改变,他们会处理一些模糊性。我建议看一下diff代码来启动。