类似外观文本数据的概率聚类技术?

时间:2010-08-15 18:04:17

标签: cluster-analysis text-processing

我在各种文档上有20,000个公司地址,这些文档的格式都不同。例如:

  • 公司A 12345街 US

  • CompanyA,Inc box2,12345 street 华盛顿州,美国

  • 公司B公司 123 happy street UK

  • B公司 123,快乐街,伦敦,S1 1AA

我希望能够将每家公司的记录合并(即将上述内容分为两类,每个公司一个)。

我不知道如何解决这个问题。我假设任何聚类本质上都是概率性的,并且可能更容易匹配,但是需要手动审查不太可能/更不确定的匹配。

有人能说出任何适合此类任务的技术吗?

非常感谢!

1 个答案:

答案 0 :(得分:2)

也许automatic grammar induction是一种可以在这里产生结果的技术。您可以尝试为您的文本推断语法,然后使用某种比较指标来聚类推断的语法。