我有两个文件。一个在utf-8中,另一个我认为是在windows-1256中。我想统一他们的编码(一个是列车集,另一个是测试集)
utf-8文件:
سلمانی را به توافق بگیر
وقتی یک مرد محترم شصت ساله ، در یک جامه قهوهای رسمی ، خوش لباس ، ولی خیلی خوب نگه داشته
windows-1256文件:
äÇåí Èå äãÇíÔÇå ÂËÇÑ åäÑí ÇÍãÏ ØÈÇØÈÇíí
ãæÖæÚ ÂËÇÑ ØÈÇØÈÇíí ãæÑÇä åÓÊäÏ æáí ÏÑ ÈÇØä äíä ÙÇåÑí¡ Çíä
我尝试了多种在线工具,但是当我将utf-8转换为1256时,它看起来与其他文件完全不同,当我将1256转换为utf-8时,它不会改变一点!
答案 0 :(得分:1)
问题解决了。我用了这个命令:
iconv -f UTF-8 -t WINDOWS-1256//TRANSLIT --output=Ham.txt Ham-utf
问题是我的windows-1256文件太大了。我将其中的一部分复制到名为ham-mini的单独文件中。复制它的一部分是问题并且损坏了文件。我使用上面的命令原始文件,问题得到解决。