我有一个很大的文本文件,该文件的编码为iso-8859-1
,我可以从其中获取:
file -i file.txt
当我整理文件以查看数据时,将显示一个^而不是泰国字符串。首先,我认为我可以在Linux中使用iconv
将编码格式转换为其他类型,我发现iso-8859-11格式可以读取泰语字符串,并认为它可以工作。像这样:
iconv -f iso-8859-1 -t iso-8859-11 file.txt > output.txt
但是,我得到了这个错误:
iconv: illegal input sequence at position 1169
是具有^的位置。我尝试使用//TRANSLIT
,但仍然遇到无法读取的字符。
有什么方法可以将这个文本文件转换为泰文字符串?我知道我可以使用一些文本编辑器打开一个文件,然后保存为所需的编码格式,但是文件太多,每个文件的大小都接近1 GB。我认为iconv可以帮助我转换每个文件,而无需手动转换每个文件。
Ps。我尝试用Python打开:
with open('file.txt','r+', encoding='iso-8859-11') as f:
print(f.read())
它可以完美地读取泰语字符,但我需要在此处转换大量文件,因此需要iconv。