作为雄心勃勃的项目的一部分,我试图更好地理解写入美国国会提出的法案的立法文本。我有最近账单的电子版本,并且我试图实施一种算法,将账单与之前的账单进行比较,寻找相似之处。假设是许多失败的账单最终被纳入其他账单。
显然,这是一项艰巨的任务。关于差异引擎存在许多问题,但我的问题略有不同。很多时候会引入将几个想法融合在一起的法案。因此差异引擎需要比较部分账单,而不是整个账单。
有关差异算法的任何建议或执行此操作的方法?我可以获得严格的计算能力,但请记住,我将使用大约100,000张账单的数据集。
答案 0 :(得分:1)
看看Simian - Similarity Analyser。它适用于纯文本和代码。
答案 1 :(得分:1)
非常有趣的想法。我将首先研究longest common subsequence算法,并了解如何使它们适应(1)报告任何序列超过某个阈值,比如20个单词,以及(2)看看你是否能得到如果一两个字改变,他们会处理一些模糊性。我建议看一下diff代码来启动。