我正在运行一个因内存不足而崩溃的perl脚本。 该脚本在具有128 Gb内存的计算机上在Ubuntu Linux下运行。在提交时,大部分内存都可用,但是脚本因其使用的内存超过略高于8Gb的值而死亡。机器(和OS)是64位。
我一直在网上搜索perl中内存分配的限制,但我发现只有机器内存的唯一限制,在这种情况下,即使不考虑交换分区,也有很多限制。
这是我第二次遇到这个问题。我第一次使用不同的脚本时发生了同样的事情。有人有解释吗?我看到的唯一可能是perl对内存分配有一些限制,但我在网上搜索的所有结果似乎都与这种可能性相矛盾。
提前致谢
编辑1 : 操作系统是Fedora Linux,而不是Ubuntu Linux。对不起,我混淆了。
编辑2 : 以下是导致错误的代码部分:
open( $psFullInput, "<", "fullPsIn.dat" );
$counter = <$psFullInput>; # First element is counter of spectra
while ($line = <$psFullInput>) {
@elems = split(" ",$line);
$xx = shift(@elems);
$yy = shift(@elems);
$freq = shift(@elems);
$psStored[$xx][$yy] = [];
push( @{$psStored[$xx][$yy]}, @elems );
}
close( $psFullInput );
之前的脚本做了类似的事情,只是没有从文件中读取数组元素,而是在某些计算结果中。
编辑3 : perl -V的结果:
Summary of my perl5 (revision 5 version 16 subversion 3) configuration:
Platform:
osname=linux, osvers=3.10.9-200.fc19.x86_64, archname=x86_64-linux-thread-multi
uname='linux buildvm-01.phx2.fedoraproject.org 3.10.9-200.fc19.x86_64 #1 smp wed aug 21 19:27:58 utc 2013 x86_64 x86_64 x86_64 gnulinux '
config_args='-des -Doptimize=-O2 -g -pipe -Wall -Wp,-D_FORTIFY_SOURCE=2 -fexceptions -fstack-protector --param=ssp-buffer-size=4 -grecord-gcc-switches -m64 -mtune=generic -Dccdlflags=-Wl,--enable-new-dtags -Dlddlflags=-shared -O2 -g -pipe -Wall -Wp,-D_FORTIFY_SOURCE=2 -fexceptions -fstack-protector --param=ssp-buffer-size=4 -grecord-gcc-switches -m64 -mtune=generic -Wl,-z,relro -DDEBUGGING=-g -Dversion=5.16.3 -Dmyhostname=localhost -Dperladmin=root@localhost -Dcc=gcc -Dcf_by=Red Hat, Inc. -Dprefix=/usr -Dvendorprefix=/usr -Dsiteprefix=/usr/local -Dsitelib=/usr/local/share/perl5 -Dsitearch=/usr/local/lib64/perl5 -Dprivlib=/usr/share/perl5 -Dvendorlib=/usr/share/perl5/vendor_perl -Darchlib=/usr/lib64/perl5 -Dvendorarch=/usr/lib64/perl5/vendor_perl -Darchname=x86_64-linux-thread-multi -Dlibpth=/usr/local/lib64 /lib64 /usr/lib64 -Duseshrplib -Dusethreads -Duseithreads -Dusedtrace=/usr/bin/dtrace -Duselargefiles -Dd_semctl_semun -Di_db -Ui_ndbm -Di_gdbm -Di_shadow -Di_syslog -Dman3ext=3pm -Duseperlio -Dinstallusrbinperl=n -Ubincompat5005 -Uversiononly -Dpager=/usr/bin/less -isr -Dd_gethostent_r_proto -Ud_endhostent_r_proto -Ud_sethostent_r_proto -Ud_endprotoent_r_proto -Ud_setprotoent_r_proto -Ud_endservent_r_proto -Ud_setservent_r_proto -Dscriptdir=/usr/bin -Dusesitecustomize'
hint=recommended, useposix=true, d_sigaction=define
useithreads=define, usemultiplicity=define
useperlio=define, d_sfio=undef, uselargefiles=define, usesocks=undef
use64bitint=define, use64bitall=define, uselongdouble=undef
usemymalloc=n, bincompat5005=undef
Compiler:
cc='gcc', ccflags ='-D_REENTRANT -D_GNU_SOURCE -fno-strict-aliasing -pipe -fstack-protector -I/usr/local/include -D_LARGEFILE_SOURCE -D_FILE_OFFSET_BITS=64',
optimize='-O2 -g -pipe -Wall -Wp,-D_FORTIFY_SOURCE=2 -fexceptions -fstack-protector --param=ssp-buffer-size=4 -grecord-gcc-switches -m64 -mtune=generic',
cppflags='-D_REENTRANT -D_GNU_SOURCE -fno-strict-aliasing -pipe -fstack-protector -I/usr/local/include'
ccversion='', gccversion='4.8.2 20131017 (Red Hat 4.8.2-1)', gccosandvers=''
intsize=4, longsize=8, ptrsize=8, doublesize=8, byteorder=12345678
d_longlong=define, longlongsize=8, d_longdbl=define, longdblsize=16
ivtype='long', ivsize=8, nvtype='double', nvsize=8, Off_t='off_t', lseeksize=8
alignbytes=8, prototype=define
Linker and Libraries:
ld='gcc', ldflags =' -fstack-protector'
libpth=/usr/local/lib64 /lib64 /usr/lib64
libs=-lresolv -lnsl -lgdbm -ldb -ldl -lm -lcrypt -lutil -lpthread -lc -lgdbm_compat
perllibs=-lresolv -lnsl -ldl -lm -lcrypt -lutil -lpthread -lc
libc=, so=so, useshrplib=true, libperl=libperl.so
gnulibc_version='2.17'
Dynamic Linking:
dlsrc=dl_dlopen.xs, dlext=so, d_dlsymun=undef, ccdlflags='-Wl,--enable-new-dtags -Wl,-rpath,/usr/lib64/perl5/CORE'
cccdlflags='-fPIC', lddlflags='-shared -O2 -g -pipe -Wall -Wp,-D_FORTIFY_SOURCE=2 -fexceptions -fstack-protector --param=ssp-buffer-size=4 -grecord-gcc-switches -m64 -mtune=generic -Wl,-z,relro '
Characteristics of this binary (from libperl):
Compile-time options: HAS_TIMES MULTIPLICITY PERLIO_LAYERS
PERL_DONT_CREATE_GVSV PERL_IMPLICIT_CONTEXT
PERL_MALLOC_WRAP PERL_PRESERVE_IVUV USE_64_BIT_ALL
USE_64_BIT_INT USE_ITHREADS USE_LARGE_FILES
USE_LOCALE USE_LOCALE_COLLATE USE_LOCALE_CTYPE
USE_LOCALE_NUMERIC USE_PERLIO USE_PERL_ATOF
USE_REENTRANT_API USE_SITECUSTOMIZE
Built under linux
Compiled at Nov 11 2013 12:36:47
%ENV:
PERL5LIB="/home/parisia/lib/perl5/lib64/perl5"
@INC:
/home/parisia/lib/perl5/lib64/perl5
/usr/local/lib64/perl5
/usr/local/share/perl5
/usr/lib64/perl5/vendor_perl
/usr/share/perl5/vendor_perl
/usr/lib64/perl5
/usr/share/perl5
.
编辑4 : 这是一个重现问题的简短代码。 如你所见,我只是填补了记忆。
use strict;
use warnings;
my ($xx,$yy); # Coordinate variables
my (@elems); # Array of elements to be stored on each matrix position
# Generate an array of 3000 floating point values.
# The list will be added to each array element. In the true script
# of course, each element has a list of completely different values.
# Here I use the same list of values for simplicity.
for ($xx = 1; $xx < 3000; $xx++) {
push( @elems, 1+$xx/10000 );
}
# Fill in each matrix element with the generated array
my @psStored;
for ($xx = 0; $xx < 300; $xx++) {
print "Row [$xx]\n";
for ($yy = 0; $yy < 300; $yy++) {
push( @{$psStored[$xx][$yy]}, @elems );
}
}
这是&#34;免费&#34;的结果。在崩溃之前(机器上运行了一些并行进程):
[parisia@gloria01 ~]$ free
total used free shared buffers cached
Mem: 132015788 46395504 85620284 0 217192 16979772
-/+ buffers/cache: 29198540 102817248
Swap: 268435452 0 268435452
更新1
我进一步调查了。正如建议我使用Devel :: Size并检查$ psStored的大小。输出的最后几行(以$ yy打印每个周期结束时的大小)是:
Row [226]
8772773032
Row [227]
8811419600
Row [228]
Out of memory!
脚本发出错误时进程的大小为: VIRT:8943960,RES:8.406g
但是,我尝试了以下脚本,该脚本按命令行中的指定分配给定大小的字符串(以千兆字节为单位):
use strict;
use warnings;
my $size = $ARGV[0];
print "$size GB ";
$size = int($size * 1000000000);
print "($size bytes)...\n";
my $var = "x" x $size;
print "Allocated\n";
此脚本对大型分配没有任何问题。例如,我可以请求30 GB,并且我从&#34; top&#34;得到以下输出。在脚本完成之前: VIRT:56.004g,RES:0.054t
因此,在处理数组时会有一些干扰分配的东西,但我不明白发生了什么。我也尝试过哈希,但是我在8-9GB左右也有同样的限制。
答案 0 :(得分:1)
我怀疑$xx
和$yy
的值相当大且稀疏(即它们之间存在很大差距)。这意味着Perl必须为所有干预值创建数组元素,即使它们中没有数据。
数据结构的设计主要取决于构建后要对其执行的操作以及访问方式。最节省空间的方法是使用哈希,如果你有
$xx = 1024
$yy = 2048
然后不是将频率存储在$ps_stored[1024][2048]
(创建$ps_stored[0]
到$ps_stored[1023]
,$ps_stored[1024][0]
到$ps_stored[1024][2047]
并将其留空)可以将它存储在 hash $ps_stored{'1024,2048'}
中,这根本不会浪费任何空间。
由于你没有说明你将如何使用这些数据,我无法判断它是否可以像这样工作,但是这里有一些代码来代替那些以这种方式构建哈希的代码。
use strict;
use warnings;
use autodie;
my %ps_stored;
open my $ps_full_input, '<', 'fullPsIn.dat';
my $counter = <$ps_full_input>; # First element is counter of spectra
while (<$ps_full_input>) {
my @elems = split;
my ($xx, $yy, $freq) = @elems;
push @{ $ps_stored{"$xx,$yy"} }, \@elems;
}
close $ps_full_input;
请注意以下内容
您必须始终检查open
来电是否成功。忽略失败的open
将使您的程序无缘无故地产生废话。你可以写一个明确的
open my $ps_full_input, '<', 'fullPsIn.dat' or die $!;
或者您可以use autodie
位于程序的顶部,如果您的代码中有多个open
次来电话,这将非常有用
您必须始终 use strict
和use warnings
位于每个Perl程序的顶部,并声明所有变量尽可能接近其第一个使用点与my
。由于您的代码是一个示例,因此不清楚您是否有strict
和warnings
,但根本没有声明,所以出现问题
习惯使用Perl的人会感谢您在本地标识符中仅使用小写字母,数字和下划线。大写字母保留用于包和模块名称,如Data::Dumper
在push
之前,无需为空数组的引用预设标量值。只要标量仍为push
,第一次使用undef
时,数组将自动验证。例如
my $aref;
push @{ $aref }, 1, 2, 3;
与
具有相同的效果my $aref;
$aref = [];
push @{ $aref }, 1, 2, 3;
我已将引用推送到@elems
数组到ps_stored
列表。我无法确定$xx
和$yy
的特定值是否会出现多次,但如果它们确实存在,那么您的方式只会将所有不同的@elems
集推送到单个列表中,这可能是尴尬的分裂回个人集。如果您推送引用而不是分开
我希望这会有所帮助
答案 1 :(得分:0)
OP,你能用一个非常短的测试脚本复制问题吗?也许你可以发布测试脚本,我会在我的机器上运行它。也许你没写过的模块会变得很糟糕。
使用哈希尝试此代码。
use strict;
use warnings;
my ($xx,$yy); # Coordinate variables
my (@elems); # Array of elements to be stored on each matrix position
# Generate an array of 3000 floating point values.
# The list will be added to each array element. In the true script
# of course, each element has a list of completely different values.
# Here I use the same list of values for simplicity.
for ($xx = 1; $xx < 3000; $xx++) {
push( @elems, 1+$xx/10000 );
}
# Fill in each matrix element with the generated array
my %psStored;
my $s;
$s=join('=',@elems);
for ($xx = 0; $xx < 300; $xx++) {
print "Row [$xx]\n";
for ($yy = 0; $yy < 300; $yy++) {
$psStored{$xx,$yy} = $s; # Here I join all elements and store them as a string.
#push( @{$psStored[$xx][$yy]}, @elems );
}
}