WMT'15 newstest数据集:.sgm格式

时间:2016-06-11 16:34:43

标签: xml machine-learning nlp moses

使用哪些脚本(以及如何?)将来自wmt的新闻测试数据集从.sgm格式转换为无格式格式(如europarl数据集)?

e.g。新闻测试数据集下载地址为:http://www.statmt.org/wmt15/test.tgz

包含(提取时)文件,例如newstest2015-ende-ref.de.sgm

如何使其与europarl数据集类似,其中每一行代表一个没有格式化的句子?

注意:

我在moses目录(从wmt站点链接)中找到了一个名为wrap-xml.perl的脚本。 它在测试部分提到它用于.sgm格式,但脚本本身不包含文档(我在perl中一无所知)

0 个答案:

没有答案