如何使用Awk读取具有不同编码的文件?

时间:2009-11-30 15:55:36

标签: character-encoding awk

如何正确读取Awk中UTF8以外的编码文件?

我有希伯来语/ Windows-1255编码的文件。 一个简单的{print $ 0} awk打印像 这样的东西。 我怎样才能正确阅读?

1 个答案:

答案 0 :(得分:8)

awk本身对处理不同的编码没有任何支持。它将遵循环境中指定的语言环境,但最好的办法是在将输入转换为awk之前将输入转码为正确的编码。

-f是要转换的格式,-t是目标格式,-c跳过任何过早终止iconv操作的无效字符。当然--help会提供更多细节。

iconv -c -f cp1255 -t utf8 somefile | awk ...