无法使用iconv

时间:2019-07-08 15:01:42

标签: linux character-encoding iso-8859-1 iconv

我有一个很大的文本文件,该文件的编码为iso-8859-1,我可以从其中获取:

file -i file.txt

当我整理文件以查看数据时,将显示一个^而不是泰国字符串。首先,我认为我可以在Linux中使用iconv将编码格式转换为其他类型,我发现iso-8859-11格式可以读取泰语字符串,并认为它可以工作。像这样:

iconv -f iso-8859-1 -t iso-8859-11 file.txt > output.txt

但是,我得到了这个错误:

iconv: illegal input sequence at position 1169

是具有^的位置。我尝试使用//TRANSLIT,但仍然遇到无法读取的字符。

有什么方法可以将这个文本文件转换为泰文字符串?我知道我可以使用一些文本编辑器打开一个文件,然后保存为所需的编码格式,但是文件太多,每个文件的大小都接近1 GB。我认为iconv可以帮助我转换每个文件,而无需手动转换每个文件。

Ps。我尝试用Python打开:

with open('file.txt','r+', encoding='iso-8859-11') as f:
   print(f.read())

它可以完美地读取泰语字符,但我需要在此处转换大量文件,因此需要iconv。

0 个答案:

没有答案