Question

理想的目标是根据参考语料库（实际文本）校正语音文本模型的输出。我不介意在NLP空间或ElasticSearch中使用任何自我工具

我有一个参考语料库，如下所示：

这种依赖导致了成瘾循环，被摧毁的生命一个使您生病的周期，您试图停止并有可能使您的 生命永无止境 这种成瘾周期的影响还包括不断接触刑事司法系统而不仅仅是释放逮捕的周期和违反。

实际上它的时间更长……

另一方面，我从CSV文件中的语音2文本模型识别出一组句子

1, is a cycle that makes you dick when
2, try two stops and essentially hates your
3, posses activated
4, lives when who don't and beyond

如您所见，因为Speech2text模型不完美，例如存在错误

1）引用语料库时，这些句子拼写错误（例如，用迪克而不是病态的句子编号1 2）有些句子与语料库完全不符-例如3号 3）将句子放在一起并不能覆盖整个段落。

所以基本上我想知道NLP主题中的这个任务是什么，然后我可以做一个更好的谷歌搜索，如果您能列举一些我可以利用的特定功能或示例，我将不胜感激。在太空或NLTK或任何其他工具中。

edit ：*我已经具有nlp（课程证书）的经验-因此，我正在寻找具体的答案和/或示例，而不是科学论文。这不是一般的错误纠正任务，也不是基于顺序模型的下一个工作建议。

Answer 1

最合适的NLP技术可能是语言模型。他们根据先前的单词（或周围的单词）预测单词的可能性。它们可用于纠错。
您可能会发现以下有用：
article
page

Answer 2

您为什么认为这不是“一般的错误纠正任务”？我觉得是这样的。您可以冷静地研究“语法校正”或“句子有效性”。

句子有效性在How to check whether a sentence is correct (simple grammar check in Python)?进行了讨论。列出的工具还提供了建议，因此可能对您有用。