启发式预测名称或公司

时间:2011-01-21 20:22:43

标签: search heuristics prediction string-search

问题

我们正在接收字符串,它们可能代表公司名称或个人姓名。我们需要一种启发式来确定这一点。

初步想法

  • 将XML文档与节点商业字符串/商业或个人字符串/个人和分数匹配字符串+1一起使用(抱歉不知道如何在SO中格式化XML)

  • 不能检查专有名词。 I.E. Bob's Company是一家名为Bob Compton的公司

  • 需要以某种格式返回置信度。我想不出如何以百分比的方式做到这一点,我能想到的就是如果它找到匹配使用整数

  • 可能的商业(全部将转换为小写):co,co。,inc,inc。等(每个的详细版本)

  • 我可以在线获取英文名单

问题

之前有没有人遇到过这种域名问题?你用了什么方法?任何华而不实的解决方法?

谢谢。

2 个答案:

答案 0 :(得分:1)

我之前没有这样做,但还有其他一些想法:

检查不合适的名词(例如“and”,“the”,“piping”)。事实上,如果您有英文字典和名单,那么任何不是名字的单词都可以成为公司名称的良好指针。

一个大问题是,一些公司只是以一个人的名字命名。 “Fred Meyer”,“J.C。Penney”和“洛克希德·马丁”是看起来像人名的公司的例子。这可能没有什么好办法(反正可能并不容易)。如果您可以对名字和姓氏进行分类,则仅使用双姓或姓氏可能是降低确定性的好理由。

我同意你的整数想法。除非你能做一些非常广泛和非常彻底的测试,否则你的百分比可能毫无意义。我可能会运行所有测试(返回名称,公司或未知)并比较结果,根据结果的一致性添加一个整数。

答案 1 :(得分:1)

您能与已知公司名称的数据库进行比较吗?

E.g。在英国:http://wck2.companieshouse.gov.uk

当然,如果它实际上是某个人的名字,这没有任何帮助,但是有一个同名的公司。