我正在尝试解析一些网络域名(数万)以查看它们是否包含任何英文单词。
我很容易解析域以使用tldextract
获取域的主要部分,然后我尝试使用enchant
来查看它们是否存在于英语词典中。
问题是我不知道如何将域拆分为多个单词进行检查,即latimes
返回为False,但times
将返回True。
如果字符串中包含英语单词,是否有人知道一种聪明的方法?
谢谢!
答案 0 :(得分:0)
除非你急需这样做,否则你可以从字母开头或开头填写字母,并检查它是否是一个已知字;如果是,切断它并重复。用例如50k字各20个字母,最坏的情况下你会做1M次查找。查找例如5ms(每次击中一个硬盘),需要5000秒(约1.5小时),比你用更好的算法花费更短。