应用错误收集

想法：

I）在文本的子集上使用字符串编辑距离，并尝试使用编辑距离对字典中的现有单词匹配字典中不存在的单词。

II）你所拥有的许多例子的关键特征是它们只有1个字符与正确的拼写不同。所以，我建议那些你不能与字典条目匹配的单词，尝试将所有英文字符添加到前面或后面，并在字典中查找结果单词。这在开始时是非常昂贵的，但是如果你在查找表中跟踪那些拼写错误（重新＆gt;是），你的查找表中将有99.99％的常见拼写错误（或者你称之为的任何拼写错误）他们实际拼写正确。

III）在正确和干净的英文文本（即报纸文章）上训练单词级2克或3克语言模型，然后在你拥有的整个语料库上运行它，并查看你的语言模型的那些单词考虑为未知单词（这意味着它在训练阶段没有看到它们），根据语言模型，最高可能单词是什么。最有可能的是语言模型前10名预测将是正确的拼写单词。

如何将英文缩写形式替换为字典形式

1 个答案: