我正在尝试制作一个快速处理嘈杂CSV文件的简单脚本。 我只想从一个大的CSV文件(gzip)中抓取几列,然后用修剪后的数据写一个新的CSV文件。还添加了一个简单的过滤方法,用于检查列的长度[0] == 15。
我比较了perl,java和python脚本,发现Java比其他语言快得多。我想知道是否还有其他方法可以为每种语言优化这个简单的过程?
每种语言的基准时间为(800MByte gzip文件) 1. Java:74秒 2. Python:197秒 3. Perl:7分钟
的Python:
import gzip
import csv
import time
def getArray(row):
columns = [0,4,5,26,33,34,35,36,39,41,42,47,54,65,66,72,73,91]
row_filt = []
for i in columns:
row_filt.append(row[i])
return row_filt
filename = 'Very_large_csv.gz'
outfile = filename + '.csv'
csv.register_dialect('wifi', delimiter='|', quoting=csv.QUOTE_NONE, quotechar = '')
start_time = time.time()
try:
f = gzip.open(filename, 'rb')
f2 = open(outfile, 'wb')
reader = csv.reader(f, dialect = 'wifi')
writer = csv.writer(f2, dialect = 'wifi')
header = reader.next()
writer.writerow(getArray(header))
for row in reader:
if (len(row[0]) != 15):
continue
writer.writerow(getArray(row))
print(time.time() - start_time)
finally:
f.close()
的Perl:
use strict;
use warnings;
use Cwd;
use IO::Uncompress::Gunzip qw($GunzipError);
use Text::CSV_XS;
use Time::Piece;
use Time::Seconds;
my @COLUMNS = (0,4,5,26,33,34,35,36,39,41,42,47,54,65,66,72,73,91);
my $csv = Text::CSV_XS->new ({ binary => 1,
sep_char => '|',
escape_char => undef,
eol => "\n",
quote_char => undef
});
my $infile='Very_large_csv.gz';
my $fh = IO::Uncompress::Gunzip->new($infile) or die "IO::Uncompress::Gunzip failed: $GunzipError\n";
my $outfile = $infile . ".csv";
open my $out, ">", $outfile or die "$outfile: $!\n";
my @header_row = split(/\|/,<$fh>);
my @header = ();
foreach my $column (@COLUMNS)
{
push @header, $header_row[$column];
}
my $header_filter = \@header;
$csv->print ($out, $header_filter);
print "Start.\n";
while (my $row = $csv->getline($fh))
{
length($row->[0]) == 15 or next;
my @data = ();
foreach my $column (@COLUMNS)
{
push @data, $row->[$column];
}
my $row_filter = \@data;
$csv->print($out, $row_filter);
}
$csv->eof or $csv->error_diag ();
close $fh;
close $out or die "$outfile: $!";
爪哇:
public class NoiseFilter {
static final int[] columns = {0,4,5,26,33,34,35,36,39,41,42,47,54,65,66,72,73,91};
public static void main(String[] args) throws IOException {
fname='Very_large_csv.gz';
GZIPInputStream gzip = new GZIPInputStream(new FileInputStream(fname));
BufferedReader reader = new BufferedReader(new InputStreamReader(gzip));
String line = reader.readLine(); // Header
String[] header = line.split("\\|");
PrintWriter ww = new PrintWriter(fname + ".csv");
printRow(header, ww);
while ((line = reader.readLine()) != null) {
String[] data = line.split("\\|",-1);
if (data[0].length() != 15 ) { continue; }
printRow(data, ww);
}
ww.close();
reader.close();
}
private static void printRow(String[] row, PrintWriter writer) {
for (int i = 0; i < columns.length; i++) {
if (i == 0) {
writer.print(row[columns[i]]);
} else {
writer.print("|" + row[columns[i]]);
}
}
writer.print("\n");
}
}
我已经修改了python代码如下,并获得了95sec的运行时间,这可以与Java竞争。
def getArray(line):
string=''
row=line.split(',')
for i in columns:
string+=(row[i]+',')
return string+'\n'
try:
f = gzip.open(filename, 'rb')
f2 = open(outfile, 'wb')
header = f.readline()
f2.write(getArray(header))
for line in f:
f2.write(getArray(line))
finally:
f.close()
答案 0 :(得分:9)
可以在Perl脚本中优化某些内容。例如,这个:
while (my $row = $csv->getline($fh))
{
length($row->[0]) == 15 or next;
my @data = ();
foreach my $column (@COLUMNS)
{
push @data, $row->[$column];
}
my $row_filter = \@data;
$csv->print($out, $row_filter);
}
可以替换为:
my $row;
length($row->[0])==15 and $csv->print($out, [ @{$row}[@COLUMNS] ])
while $row = $csv->getline($fh);
......哪个应该表现得更好。我没有对它进行基准测试,但它不太可能产生巨大的差异。
更重要的是,Java代码更快的原因是它做得少得多。 Text :: CSV_XS(我猜你也使用的Python模块)是一个完整的解析器 - 它处理引用字段,转义字符等。考虑以下管道分隔文件,它应该是两行和两列:< / p>
1|"Foo+Bar"
2|"Foo|Bar"
您的Java代码天真地在管道上拆分行,这意味着“Foo | Bar”应该是单个原子字符串值,而是分成两个字段。如果Java代码执行了与Perl和Python版本相同的检查,那么它会慢下来。
相反,您可以通过放弃正确的CSV样式解析来加速Perl或Python版本,并且只使用split
。例如在Perl:
while (<$fh>) {
chomp;
my @F = split /\|/;
length $F[0] == 15 or next;
print {$out} join("|", @F[@COLUMNS]), "\n";
}
您的整个脚本甚至可以使用以下单行完成:
gzip -d -c Very_large_csv.gz | perl -F'\|' -lane 'print join("|", @F[0,4,5,26,33,34,35,36,39,41,42,47,54,65,66,72,73,91]) if $. == 1 || length($F[0]) == 15' > output.csv
切换:
-F
:split()
模式-a
切换(//是可选的)-l
:启用行结束处理-a
:拆分空间线并将其加载到数组@F
-n
:为输入文件中的每个“行”创建一个while(<>){...}
循环。 -e
:告诉perl
在命令行上执行代码。 <强>代码强>:
gzip -d -c Very_large_csv.gz
:解压缩文件,将其传递给STDOUT print join("|", @F[0,4,5,26,33,34,35,36,39,41,42,47,54,65,66,72,73,91])
:仅保留CSV文件的某些索引if $. == 1 || length($F[0]) == 15
:根据标头或第一列过滤答案 1 :(得分:0)
你的内循环中没有很多脂肪。在python版本中,每次调用getarray()时都会构造一个新的列对象。由于getarray()函数本身非常简单,因此您可以将整个函数内联。
不太可能成为一个有意义的加速。
您也可以尝试使用PyPy,这可能会产生相对较大的差异 - 但可能仍然没有Java版本那么快。