我正在通过从网上抓取数据来创建印地语-英语语料库。
我从网站上抓取了数据,并将它们并行保存在两个文本文件中,一个包含英语句子,另一个具有等效的印地语句子。
使用Moses令牌生成器将规范化和令牌化应用于英语文本文件。(http://www.statmt.org/moses/?n=moses.baseline)
使用印度语NLP库将规范化和标记化应用于印地语文本文件。(https://anoopkunchukuttan.github.io/indic_nlp_library/)
要使它成为供人们使用的完美并行语料库,我还需要做些什么?
注意:我知道已经有两个语料库。
但是我想创建这个新的语料库。