从文本字符串中提取位置

时间:2016-11-08 16:07:09

标签: nlp

我有一个问题,表面看起来似乎微不足道,但我不知道如何解决这个问题。

我有一个100万行的文件,每行都是一个描述。在每个描述中,我想提取位置(城市和州,如果存在)。某些位置可能拼写错误或不完整。我的目标是尽可能准确。

以下是我文件中的示例字符串。

wendys-alexandria q25,ALEXANDRIA,,US
wendys-alexandria q25   alexandria   ky,ALEXANDRIA,KY,US
wendys-alexandria q25 alexandria    ky,ALEXANDRIA,KY,US
wendys-alexandria q25 alexandria   ky,ALEXANDRIA,KY,US
wendys-alexandria q25 alexandria ky,ALEXANDRIA,KY,US
wendys-altoona#,ALTOONA,,US
wendys-altoona#       altoona      pa,ALTOONA,PA,US
wendys-altoona#     altoona      pa,ALTOONA,PA,US
wendys-altoona# 000 altoona,ALTOONA,,US
wendys-altoona# 0altoona,ALTOONA,,US
wendys-altoona# altoona      pa,ALTOONA,PA,US
wendys-altoona# altoona pa see all tags,ALTOONA,,US

我知道这个问题是名称实体识别,我应该使用" NLP技术"解决它。我正在考虑使用Python + Pandas + NLP库。

但如果之前有人做过类似的任务,并且可以为我指出使用哪个NLP库的方向,我将非常感激。

由于

0 个答案:

没有答案