标签: python text character-encoding nlp machine-translation
我正在为中文进行WMT2018数据集机器翻译。我发现数据中有很多奇怪的字符,如下所示:
我以为这是编码问题,所以我将其转换为支持汉字的UTF-8文本文件,但是仍然存在该问题。
关于如何解决此问题的任何想法?