将句子与语料库对齐并查找不匹配项

时间:2019-10-11 12:39:28

标签: regex elasticsearch nlp nltk spacy

理想的目标是根据参考语料库(实际文本)校正语音文本模型的输出。我不介意在NLP空间或ElasticSearch中使用任何自我工具

我有一个参考语料库,如下所示:

  

这种依赖导致了成瘾循环,   被摧毁的生命一个使您生病的周期,您试图停止   并有可能使您的 生命永无止境   这种成瘾周期的影响还包括不断接触   刑事司法系统而不仅仅是释放逮捕的周期   和违反。

实际上它的时间更长……

另一方面,我从CSV文件中的语音2文本模型识别出一组句子

1, is a cycle that makes you dick when
2, try two stops and essentially hates your
3, posses activated
4, lives when who don't and beyond

如您所见,因为Speech2text模型不完美,例如存在错误

1)引用语料库时,这些句子拼写错误(例如,用迪克而不是病态的句子编号1 2)有些句子与语料库完全不符-例如3号 3)将句子放在一起并不能覆盖整个段落。

所以基本上我想知道NLP主题中的这个任务是什么,然后我可以做一个更好的谷歌搜索,如果您能列举一些我可以利用的特定功能或示例,我将不胜感激。在太空或NLTK或任何其他工具中。

edit :*我已经具有nlp(课程证书)的经验-因此,我正在寻找具体的答案和/或示例,而不是科学论文。这不是一般的错误纠正任务,也不是基于顺序模型的下一个工作建议。

2 个答案:

答案 0 :(得分:0)

最合适的NLP技术可能是语言模型。 他们根据先前的单词(或周围的单词)预测单词的可能性。 它们可用于纠错。
您可能会发现以下有用:
article
page

答案 1 :(得分:0)

您为什么认为这不是“一般的错误纠正任务”?我觉得是这样的。您可以冷静地研究“语法校正”或“句子有效性”。

句子有效性在How to check whether a sentence is correct (simple grammar check in Python)?进行了讨论。列出的工具还提供了建议,因此可能对您有用。