我一直在考虑这是否已经创建了,但是想象一个可以验证字符串并确定它是否是单词的函数。例如
print(validateWord("Hello")) --> true
print(validateWord("Haloe")) --> true (may not be a real word but follows the standards of placements of vowels and such)
print(validateWord("sewxdw")) --> false
我没有要求代码,我只想知道这是否已经存在,如果确实存在,那么这个算法的wiki帖子会很好。
答案 0 :(得分:3)
你想要的是一个隐藏的马尔可夫模型,用英语语料库中的单词(或你感兴趣的任何语言)训练。然后,您可以对模型是否喜欢它们的假定词进行评分。它只会禁止实际上不允许的组合,例如" jx"但它应该给不太可能的候选人一个低分。
尝试将文本分解为音素符号(th,ae qu,ph等)可能会更好,而不是编写使用原始字母的模型。