我有一个问题,表面看起来似乎微不足道,但我不知道如何解决这个问题。
我有一个100万行的文件,每行都是一个描述。在每个描述中,我想提取位置(城市和州,如果存在)。某些位置可能拼写错误或不完整。我的目标是尽可能准确。
以下是我文件中的示例字符串。
wendys-alexandria q25,ALEXANDRIA,,US
wendys-alexandria q25 alexandria ky,ALEXANDRIA,KY,US
wendys-alexandria q25 alexandria ky,ALEXANDRIA,KY,US
wendys-alexandria q25 alexandria ky,ALEXANDRIA,KY,US
wendys-alexandria q25 alexandria ky,ALEXANDRIA,KY,US
wendys-altoona#,ALTOONA,,US
wendys-altoona# altoona pa,ALTOONA,PA,US
wendys-altoona# altoona pa,ALTOONA,PA,US
wendys-altoona# 000 altoona,ALTOONA,,US
wendys-altoona# 0altoona,ALTOONA,,US
wendys-altoona# altoona pa,ALTOONA,PA,US
wendys-altoona# altoona pa see all tags,ALTOONA,,US
我知道这个问题是名称实体识别,我应该使用" NLP技术"解决它。我正在考虑使用Python + Pandas + NLP库。
但如果之前有人做过类似的任务,并且可以为我指出使用哪个NLP库的方向,我将非常感激。
由于