使用n-gram语言模型为MS Word开发自定义自动完成插件

时间:2013-08-05 13:57:04

标签: autocomplete nlp n-gram statistics text-analysis

根据从大量训练数据构建的n-gram语言模型,是否有人建议如何实现Microsoft Word的自定义功能,以便在用户输入时提供单词预测(自动完成)选项。 / p>

我在办公室工作,转录音频文件。所有的材料都是一个人说话的话语,我们已经完成了几千次转录,还有1000多次转录。我们已经尝试过ASR解决方案,但发现它实际上更多的努力来纠正自动转录的文本,而不是从头开始转录它。

我认为我们可以仅使用语言模型组件来提出解决方案,并在输入时使用它来帮助转录员。用户可以选择完全键入一些单词,只选择其他单词的前几个字母,然后使用空格键快速滚动查看最可能的完成列表,这样他们就可以像音频一样快速地转录正在播放。

很想听听任何人的想法 - 特别是关于如何最好地生成LM以及如何将其插入。

我还发现了这篇关于整合主题相关概率http://noah.coccaro.com/publications/thesis.pdf

的精彩论文

0 个答案:

没有答案