应用错误收集

我正在通过从网上抓取数据来创建印地语-英语语料库。

我从网站上抓取了数据，并将它们并行保存在两个文本文件中，一个包含英语句子，另一个具有等效的印地语句子。

使用Moses令牌生成器将规范化和令牌化应用于英语文本文件。（http://www.statmt.org/moses/?n=moses.baseline）

使用印度语NLP库将规范化和标记化应用于印地语文本文件。（https://anoopkunchukuttan.github.io/indic_nlp_library/）

要使它成为供人们使用的完美并行语料库，我还需要做些什么？

注意：我知道已经有两个语料库。

但是我想创建这个新的语料库。