我有一个Dictionary文本文件,其中包含世界城市的名称/关键字,这些关键字几乎是3,00,000
,但是它也有许多不相关的关键字,例如this , is , on ,Over , Old , It , a , From etc .....
您会发现这些关键字不属于任何城市名称,那么我该如何删除所有不属于城市名称的关键字。
我不知道该怎么办。
是否有解决此问题的解决方案? 一些示例数据在这里
Japon
Bagpat
Jharda
Kilbrin
This
Großköllnbach
Sighetu Silvaniei
Schweich
Colinet
Leskovec
Trizay
Kilen
Le Perreux
Give
Combourg
Migliaro
Stawki
Kingham
答案 0 :(得分:0)
您应该准备一个无关紧要的单词包以进行检测,然后才能删除这些无关紧要的单词。
如果您不知道文件中哪些单词是非城市名称,则应尝试分析并找到这些无关单词之间的相似性。