如何执行流式字符转换?

时间:2013-01-23 03:54:43

标签: linux encoding glibc iconv

我将数据存储在磁盘上的文件太大而无法存储在主内存中。

我想通过iconv将此数据从磁盘流式传输到数据处理管道中,如下所示:

zcat myfile | iconv -f L1 -t UTF-8 | # rest of the pipeline goes here

不幸的是,我看到iconv缓冲整个文件在内存中,直到它在输出任何数据之前耗尽。这意味着我正在耗尽管道中阻塞操作的所有主内存,其内存占用空间很小。

我试过像这样调用iconv:

stdbuf -o 0 iconv -f L1 -t UTF-8

但看起来iconv正在内部管理缓冲 - 它与Linux管道缓冲区无关。

我在Arch Linux中使用gblic 2.6和2.7打包的二进制文件看到了这一点,我在Debian中用glibc 2.5对它进行了描述。

有什么方法可以解决这个问题吗?我知道流式字符转换并不简单,但我认为这种常用的unix工具可以在流中工作;使用不适合主内存的文件并不罕见。我是否必须将自己的二进制文件链接到libiconv

1 个答案:

答案 0 :(得分:2)

考虑使用iconv_open调用iconv(3) - 将一个简单的C例程挂钩到这两个调用。 从stdin读取,写入stdout。阅读这个例子:

http://www.gnu.org/software/libc/manual/html_node/iconv-Examples.html

这个例子显然是为了处理你所描述的内容。 - 避免“有状态”等待数据。