Question

我有一个问题，表面看起来似乎微不足道，但我不知道如何解决这个问题。

我有一个100万行的文件，每行都是一个描述。在每个描述中，我想提取位置（城市和州，如果存在）。某些位置可能拼写错误或不完整。我的目标是尽可能准确。

以下是我文件中的示例字符串。

wendys-alexandria q25,ALEXANDRIA,,US
wendys-alexandria q25   alexandria   ky,ALEXANDRIA,KY,US
wendys-alexandria q25 alexandria    ky,ALEXANDRIA,KY,US
wendys-alexandria q25 alexandria   ky,ALEXANDRIA,KY,US
wendys-alexandria q25 alexandria ky,ALEXANDRIA,KY,US
wendys-altoona#,ALTOONA,,US
wendys-altoona#       altoona      pa,ALTOONA,PA,US
wendys-altoona#     altoona      pa,ALTOONA,PA,US
wendys-altoona# 000 altoona,ALTOONA,,US
wendys-altoona# 0altoona,ALTOONA,,US
wendys-altoona# altoona      pa,ALTOONA,PA,US
wendys-altoona# altoona pa see all tags,ALTOONA,,US

我知道这个问题是名称实体识别，我应该使用＆＃34; NLP技术＆＃34;解决它。我正在考虑使用Python + Pandas + NLP库。

但如果之前有人做过类似的任务，并且可以为我指出使用哪个NLP库的方向，我将非常感激。

由于

从文本字符串中提取位置

0 个答案: