理想的目标是根据参考语料库(实际文本)校正语音文本模型的输出。我不介意在NLP空间或ElasticSearch中使用任何自我工具
我有一个参考语料库,如下所示:
这种依赖导致了成瘾循环, 被摧毁的生命一个使您生病的周期,您试图停止 并有可能使您的 生命永无止境 这种成瘾周期的影响还包括不断接触 刑事司法系统而不仅仅是释放逮捕的周期 和违反。
实际上它的时间更长……
另一方面,我从CSV文件中的语音2文本模型识别出一组句子
1, is a cycle that makes you dick when
2, try two stops and essentially hates your
3, posses activated
4, lives when who don't and beyond
如您所见,因为Speech2text模型不完美,例如存在错误
1)引用语料库时,这些句子拼写错误(例如,用迪克而不是病态的句子编号1 2)有些句子与语料库完全不符-例如3号 3)将句子放在一起并不能覆盖整个段落。
所以基本上我想知道NLP主题中的这个任务是什么,然后我可以做一个更好的谷歌搜索,如果您能列举一些我可以利用的特定功能或示例,我将不胜感激。在太空或NLTK或任何其他工具中。
edit :*我已经具有nlp(课程证书)的经验-因此,我正在寻找具体的答案和/或示例,而不是科学论文。这不是一般的错误纠正任务,也不是基于顺序模型的下一个工作建议。
答案 0 :(得分:0)
答案 1 :(得分:0)
您为什么认为这不是“一般的错误纠正任务”?我觉得是这样的。您可以冷静地研究“语法校正”或“句子有效性”。
句子有效性在How to check whether a sentence is correct (simple grammar check in Python)?进行了讨论。列出的工具还提供了建议,因此可能对您有用。