如何为用户提供的国家/地区名称预测正确的国家名称

时间:2016-01-27 06:06:41

标签: java nlp string-matching text-mining opennlp

我打算对我的数据进行一些数据调整。

情境 - 我的数据包含字段country。它包含用户输入的国家/地区名称(可能包含拼写错误或同一国家/地区的不同国家/地区名称,例如美国/美国/美国)。我有一个正确的国家/地区名称列表。

我想要什么 - 预测它指的是哪个最近的国家/地区。例如 - 如果给出了U.S.,那么它将更改为USA(我们列表中的国家名称正确)。

我有什么方法可以使用Java或opennlp或任何其他方法吗?

3 个答案:

答案 0 :(得分:3)

您可以使用Getty API。它会给你国家名称的缩写。只需使用此API。

OR

您还可以使用Levenshtein Distance获取最接近的国家/地区名称。

试一试。会帮助你。

答案 1 :(得分:0)

您可以在自己的文本框中尝试使用Google的自动完成位置API,也可以选择。 如果你将使用这个api然后你会得到谷歌喜欢自动完成intellisence在打字时。 visit link

答案 2 :(得分:0)

如果您拥有经过消毒的城市或州信息,那么您可以查看该国家。

您还可以在国家/地区名称列表中定义别名,并将别名指向首选表示法。例如,美国,美国,美国都是U.S.A的别名。您可以使程序附加到别名数据库,以便在使用时改进。您可能会对数据进行多次传递,并且还涉及一定量的手动工作。