如何为NMT创建并行语料库?

时间:2018-08-14 20:12:34

标签: python neural-network translation machine-translation opennmt

我正在通过从网上抓取数据来创建印地语-英语语料库。

我从网站上抓取了数据,并将它们并行保存在两个文本文件中,一个包含英语句子,另一个具有等效的印地语句子。

使用Moses令牌生成器将规范化和令牌化应用于英语文本文件。(http://www.statmt.org/moses/?n=moses.baseline

使用印度语NLP库将规范化和标记化应用于印地语文本文件。(https://anoopkunchukuttan.github.io/indic_nlp_library/

要使它成为供人们使用的完美并行语料库,我还需要做些什么?

注意:我知道已经有两个语料库。

  1. http://www.cfilt.iitb.ac.in/iitb_parallel/
  2. https://ufal.mff.cuni.cz/hindencorp

但是我想创建这个新的语料库。

0 个答案:

没有答案