如何将英文缩写形式替换为字典形式

时间:2016-04-09 09:29:20

标签: dictionary text nlp token word

我正在研究一个用英语分析文本的系统:我使用stanford-core nlp从整个文档中制作句子并用句子制作标记。我还使用maxent tagger来获取令牌pos标签。 现在,考虑到我使用这个语料库来构建一个有监督的分类器,如果我可以将“re,s,havin,sayin”等任何单词替换为其标准形式(是,是,有,说)会很好。 )。我一直在寻找一些英文字典文件,但我不知道如何使用它。有很多不同的案例需要考虑,我认为这不是一件容易实现的事情:我可以使用一些类似的工作或整个项目吗?

1 个答案:

答案 0 :(得分:1)

想法:

I)在文本的子集上使用字符串编辑距离,并尝试使用编辑距离对字典中的现有单词匹配字典中不存在的单词。

II)你所拥有的许多例子的关键特征是它们只有1个字符与正确的拼写不同。所以,我建议那些你不能与字典条目匹配的单词,尝试将所有英文字符添加到前面或后面,并在字典中查找结果单词。这在开始时是非常昂贵的,但是如果你在查找表中跟踪那些拼写错误(重新>是),你的查找表中将有99.99%的常见拼写错误(或者你称之为的任何拼写错误)他们实际拼写正确。

III)在正确和干净的英文文本(即报纸文章)上训练单词级2克或3克语言模型,然后在你拥有的整个语料库上运行它,并查看你的语言模型的那些单词考虑为未知单词(这意味着它在训练阶段没有看到它们),根据语言模型,最高可能单词是什么。最有可能的是语言模型前10名预测将是正确的拼写单词。