我将数据存储在磁盘上的文件太大而无法存储在主内存中。
我想通过iconv
将此数据从磁盘流式传输到数据处理管道中,如下所示:
zcat myfile | iconv -f L1 -t UTF-8 | # rest of the pipeline goes here
不幸的是,我看到iconv缓冲整个文件在内存中,直到它在输出任何数据之前耗尽。这意味着我正在耗尽管道中阻塞操作的所有主内存,其内存占用空间很小。
我试过像这样调用iconv:
stdbuf -o 0 iconv -f L1 -t UTF-8
但看起来iconv正在内部管理缓冲 - 它与Linux管道缓冲区无关。
我在Arch Linux中使用gblic 2.6和2.7打包的二进制文件看到了这一点,我在Debian中用glibc 2.5对它进行了描述。
有什么方法可以解决这个问题吗?我知道流式字符转换并不简单,但我认为这种常用的unix工具可以在流中工作;使用不适合主内存的文件并不罕见。我是否必须将自己的二进制文件链接到libiconv
?
答案 0 :(得分:2)
考虑使用iconv_open调用iconv(3) - 将一个简单的C例程挂钩到这两个调用。 从stdin读取,写入stdout。阅读这个例子:
http://www.gnu.org/software/libc/manual/html_node/iconv-Examples.html
这个例子显然是为了处理你所描述的内容。 - 避免“有状态”等待数据。