使用哪些脚本(以及如何?)将来自wmt的新闻测试数据集从.sgm格式转换为无格式格式(如europarl数据集)?
e.g。新闻测试数据集下载地址为:http://www.statmt.org/wmt15/test.tgz
包含(提取时)文件,例如newstest2015-ende-ref.de.sgm
如何使其与europarl数据集类似,其中每一行代表一个没有格式化的句子?
注意:
我在moses目录(从wmt站点链接)中找到了一个名为wrap-xml.perl的脚本。 它在测试部分提到它用于.sgm格式,但脚本本身不包含文档(我在perl中一无所知)