我有一个字符串列表,我需要检查英语词典。 但是我不想开始检查列表中的每一个乱码。首先,我想检查字符串是否可以是英文单词。
是否有人知道执行此操作的算法或至少需要应用于验证单词的规则?
例如:
任何口语都不能以超过3个辅音开头,如果一个单词中有3个初始辅音,则第一个必须是“s”。
答案 0 :(得分:4)
在数据结构中查找单词会很快(例如使用Bloom filter(注意误报!)或一组)因此,出于效率原因,可能不值得这样做。 / p>
如果您想提供建议,请查看Peter Norvig的spell checking实施。
如果你真的想这样做,那么我将从现有文本中构建A跟随B的频率,以查看任何给定的序列是否包含在英语单词中。
答案 1 :(得分:0)
这类任务就是计算机的用途。使用某种设置结构(可能是布隆过滤器)将所有单词存储在字典中,然后只需检查单词。这是一个恒定的时间操作。