应用错误收集

类似外观文本数据的概率聚类技术？

时间：2010-08-15 18:04:17

标签： cluster-analysis text-processing

我在各种文档上有20,000个公司地址，这些文档的格式都不同。例如：

公司A 12345街 US
CompanyA，Inc box2,12345 street 华盛顿州，美国
公司B公司 123 happy street UK
B公司 123，快乐街，伦敦，S1 1AA

我希望能够将每家公司的记录合并（即将上述内容分为两类，每个公司一个）。

我不知道如何解决这个问题。我假设任何聚类本质上都是概率性的，并且可能更容易匹配，但是需要手动审查不太可能/更不确定的匹配。

有人能说出任何适合此类任务的技术吗？

非常感谢！

1 个答案:

答案 0 :(得分：2)

也许automatic grammar induction是一种可以在这里产生结果的技术。您可以尝试为您的文本推断语法，然后使用某种比较指标来聚类推断的语法。