WMT2018新闻评论中文数据集怪异人物

时间:2019-05-16 09:18:46

标签: python text character-encoding nlp machine-translation

我正在为中文进行WMT2018数据集机器翻译。我发现数据中有很多奇怪的字符,如下所示:

enter image description here

我以为这是编码问题,所以我将其转换为支持汉字的UTF-8文本文件,但是仍然存在该问题。

关于如何解决此问题的任何想法?

0 个答案:

没有答案