确定一个单词是否可以是英语的算法?

时间:2011-07-21 12:23:25

标签: algorithm nlp

我有一个字符串列表,我需要检查英语词典。 但是我不想开始检查列表中的每一个乱码。首先,我想检查字符串是否可以是英文单词。

是否有人知道执行此操作的算法或至少需要应用于验证单词的规则?

例如:

任何口语都不能以超过3个辅音开头,如果一个单词中有3个初始辅音,则第一个必须是“s”。

2 个答案:

答案 0 :(得分:4)

在数据结构中查找单词会很快(例如使用Bloom filter(注意误报!)或一组)因此,出于效率原因,可能不值得这样做。 / p>

如果您想提供建议,请查看Peter Norvig的spell checking实施。

如果你真的想这样做,那么我将从现有文本中构建A跟随B的频率,以查看任何给定的序列是否包含在英语单词中。

答案 1 :(得分:0)

这类任务就是计算机的用途。使用某种设置结构(可能是布隆过滤器)将所有单词存储在字典中,然后只需检查单词。这是一个恒定的时间操作。