删除不属于城市名称字典文本文件的关键字

时间:2019-02-28 15:19:18

标签: python python-3.x dictionary text

我有一个Dictionary文本文件,其中包含世界城市的名称/关键字,这些关键字几乎是3,00,000,但是它也有许多不相关的关键字,例如this , is , on ,Over , Old , It , a , From etc .....

您会发现这些关键字不属于任何城市名称,那么我该如何删除所有不属于城市名称的关键字。

我不知道该怎么办。

是否有解决此问题的解决方案? 一些示例数据在这里

Japon
Bagpat
Jharda
Kilbrin
This
Großköllnbach
Sighetu Silvaniei
Schweich
Colinet
Leskovec
Trizay
Kilen
Le Perreux
Give
Combourg
Migliaro
Stawki
Kingham

1 个答案:

答案 0 :(得分:0)

您应该准备一个无关紧要的单词包以进行检测,然后才能删除这些无关紧要的单词。

如果您不知道文件中哪些单词是非城市名称,则应尝试分析并找到这些无关单词之间的相似性。