如何查找字符串中是否存在英语单词

时间:2017-10-20 18:32:05

标签: python parsing dataframe web

我正在尝试解析一些网络域名(数万)以查看它们是否包含任何英文单词。

我很容易解析域以使用tldextract获取域的主要部分,然后我尝试使用enchant来查看它们是否存在于英语词典中。

问题是我不知道如何将域拆分为多个单词进行检查,即latimes返回为False,但times将返回True。

如果字符串中包含英语单词,是否有人知道一种聪明的方法?

谢谢!

1 个答案:

答案 0 :(得分:0)

除非你急需这样做,否则你可以从字母开头开头填写字母,并检查它是否是一个已知字;如果是,切断它并重复。用例如50k字各20个字母,最坏的情况下你会做1M次查找。查找例如5ms(每次击中一个硬盘),需要5000秒(约1.5小时),比你用更好的算法花费更短。