在压缩存档内的文本文件上运行`head`,而不解压缩存档

时间:2010-09-27 20:51:04

标签: perl parsing shell zip etl

问候,

我从前一个团队接管并编写处理csv文件的ETL作业。我在ubuntu上使用了shell脚本和perl的组合。 csv文件很大;他们以压缩档案的形式到达。解压缩,许多超过30Gb - 是的,这是一个G

传统进程是在cron上运行的批处理作业,它完全解压缩每个文件,读取并将其第一行复制到配置文件中,然后重新压缩整个文件。有些日子这需要很多小时的处理时间,没有任何好处。

你能否建议一种方法只从压缩档案中的每个文件中提取第一行(或前几行),而不完全解压缩档案?

2 个答案:

答案 0 :(得分:6)

unzip命令行实用程序有一个-p选项,可将文件转储到标准输出。只需将其输入head,它就不会将整个文件解压缩到磁盘上。

或者,来自perldoc IO::Compress::Zip

my ($status, $bufferRef);
my $member = $zip->memberNamed( 'xyz.txt' );
$member->desiredCompressionMethod( COMPRESSION_STORED );
$status = $member->rewindData();
die "error $status" unless $status == AZ_OK;
while ( ! $member->readIsDone() )
{
   ( $bufferRef, $status ) = $member->readChunk();
   die "error $status" if $status != AZ_OK && $status != AZ_STREAM_END;
   # do something with $bufferRef:
   print $$bufferRef;
}
$member->endRead();

修改以适应,即通过迭代文件列表$zip->memberNames(),只读取前几行。

答案 1 :(得分:1)

Python的zipfile.ZipFile允许您通过ZipFile.open()作为流访问存档文件。从那里你可以根据需要处理它们。