Perl内存不足但是有足够的可用内存

时间:2014-07-17 11:28:21

标签: linux perl memory

我正在运行一个因内存不足而崩溃的perl脚本。 该脚本在具有128 Gb内存的计算机上在Ubuntu Linux下运行。在提交时,大部分内存都可用,但是脚本因其使用的内存超过略高于8Gb的值而死亡。机器(和OS)是64位。

我一直在网上搜索perl中内存分配的限制,但我发现只有机器内存的唯一限制,在这种情况下,即使不考虑交换分区,也有很多限制。

这是我第二次遇到这个问题。我第一次使用不同的脚本时发生了同样的事情。有人有解释吗?我看到的唯一可能是perl对内存分配有一些限制,但我在网上搜索的所有结果似乎都与这种可能性相矛盾。

提前致谢

编辑1 : 操作系统是Fedora Linux,而不是Ubuntu Linux。对不起,我混淆了。

编辑2 : 以下是导致错误的代码部分:

open( $psFullInput, "<", "fullPsIn.dat" );
$counter = <$psFullInput>;  # First element is counter of spectra
while ($line = <$psFullInput>)  {
  @elems = split(" ",$line);
  $xx = shift(@elems);
  $yy = shift(@elems);
  $freq = shift(@elems);
  $psStored[$xx][$yy] = [];
  push( @{$psStored[$xx][$yy]}, @elems );
}
close( $psFullInput );

之前的脚本做了类似的事情,只是没有从文件中读取数组元素,而是在某些计算结果中。

编辑3 : perl -V的结果:

 Summary of my perl5 (revision 5 version 16 subversion 3) configuration:

  Platform:
    osname=linux, osvers=3.10.9-200.fc19.x86_64, archname=x86_64-linux-thread-multi
    uname='linux buildvm-01.phx2.fedoraproject.org 3.10.9-200.fc19.x86_64 #1 smp wed aug 21 19:27:58 utc 2013 x86_64 x86_64 x86_64 gnulinux '
    config_args='-des -Doptimize=-O2 -g -pipe -Wall -Wp,-D_FORTIFY_SOURCE=2 -fexceptions -fstack-protector --param=ssp-buffer-size=4 -grecord-gcc-switches  -m64 -mtune=generic -Dccdlflags=-Wl,--enable-new-dtags -Dlddlflags=-shared -O2 -g -pipe -Wall -Wp,-D_FORTIFY_SOURCE=2 -fexceptions -fstack-protector --param=ssp-buffer-size=4 -grecord-gcc-switches  -m64 -mtune=generic -Wl,-z,relro  -DDEBUGGING=-g -Dversion=5.16.3 -Dmyhostname=localhost -Dperladmin=root@localhost -Dcc=gcc -Dcf_by=Red Hat, Inc. -Dprefix=/usr -Dvendorprefix=/usr -Dsiteprefix=/usr/local -Dsitelib=/usr/local/share/perl5 -Dsitearch=/usr/local/lib64/perl5 -Dprivlib=/usr/share/perl5 -Dvendorlib=/usr/share/perl5/vendor_perl -Darchlib=/usr/lib64/perl5 -Dvendorarch=/usr/lib64/perl5/vendor_perl -Darchname=x86_64-linux-thread-multi -Dlibpth=/usr/local/lib64 /lib64 /usr/lib64 -Duseshrplib -Dusethreads -Duseithreads -Dusedtrace=/usr/bin/dtrace -Duselargefiles -Dd_semctl_semun -Di_db -Ui_ndbm -Di_gdbm -Di_shadow -Di_syslog -Dman3ext=3pm -Duseperlio -Dinstallusrbinperl=n -Ubincompat5005 -Uversiononly -Dpager=/usr/bin/less -isr -Dd_gethostent_r_proto -Ud_endhostent_r_proto -Ud_sethostent_r_proto -Ud_endprotoent_r_proto -Ud_setprotoent_r_proto -Ud_endservent_r_proto -Ud_setservent_r_proto -Dscriptdir=/usr/bin -Dusesitecustomize'
    hint=recommended, useposix=true, d_sigaction=define
    useithreads=define, usemultiplicity=define
    useperlio=define, d_sfio=undef, uselargefiles=define, usesocks=undef
    use64bitint=define, use64bitall=define, uselongdouble=undef
    usemymalloc=n, bincompat5005=undef
  Compiler:
    cc='gcc', ccflags ='-D_REENTRANT -D_GNU_SOURCE -fno-strict-aliasing -pipe -fstack-protector -I/usr/local/include -D_LARGEFILE_SOURCE -D_FILE_OFFSET_BITS=64',
    optimize='-O2 -g -pipe -Wall -Wp,-D_FORTIFY_SOURCE=2 -fexceptions -fstack-protector --param=ssp-buffer-size=4 -grecord-gcc-switches -m64 -mtune=generic',
    cppflags='-D_REENTRANT -D_GNU_SOURCE -fno-strict-aliasing -pipe -fstack-protector -I/usr/local/include'
    ccversion='', gccversion='4.8.2 20131017 (Red Hat 4.8.2-1)', gccosandvers=''
    intsize=4, longsize=8, ptrsize=8, doublesize=8, byteorder=12345678
    d_longlong=define, longlongsize=8, d_longdbl=define, longdblsize=16
    ivtype='long', ivsize=8, nvtype='double', nvsize=8, Off_t='off_t', lseeksize=8
    alignbytes=8, prototype=define
  Linker and Libraries:
    ld='gcc', ldflags =' -fstack-protector'
    libpth=/usr/local/lib64 /lib64 /usr/lib64
    libs=-lresolv -lnsl -lgdbm -ldb -ldl -lm -lcrypt -lutil -lpthread -lc -lgdbm_compat
    perllibs=-lresolv -lnsl -ldl -lm -lcrypt -lutil -lpthread -lc
    libc=, so=so, useshrplib=true, libperl=libperl.so
    gnulibc_version='2.17'
  Dynamic Linking:
    dlsrc=dl_dlopen.xs, dlext=so, d_dlsymun=undef, ccdlflags='-Wl,--enable-new-dtags -Wl,-rpath,/usr/lib64/perl5/CORE'
    cccdlflags='-fPIC', lddlflags='-shared -O2 -g -pipe -Wall -Wp,-D_FORTIFY_SOURCE=2 -fexceptions -fstack-protector --param=ssp-buffer-size=4 -grecord-gcc-switches -m64 -mtune=generic -Wl,-z,relro '


Characteristics of this binary (from libperl): 
  Compile-time options: HAS_TIMES MULTIPLICITY PERLIO_LAYERS
                        PERL_DONT_CREATE_GVSV PERL_IMPLICIT_CONTEXT
                        PERL_MALLOC_WRAP PERL_PRESERVE_IVUV USE_64_BIT_ALL
                        USE_64_BIT_INT USE_ITHREADS USE_LARGE_FILES
                        USE_LOCALE USE_LOCALE_COLLATE USE_LOCALE_CTYPE
                        USE_LOCALE_NUMERIC USE_PERLIO USE_PERL_ATOF
                        USE_REENTRANT_API USE_SITECUSTOMIZE
  Built under linux
  Compiled at Nov 11 2013 12:36:47
  %ENV:
    PERL5LIB="/home/parisia/lib/perl5/lib64/perl5"
  @INC:
    /home/parisia/lib/perl5/lib64/perl5
    /usr/local/lib64/perl5
    /usr/local/share/perl5
    /usr/lib64/perl5/vendor_perl
    /usr/share/perl5/vendor_perl
    /usr/lib64/perl5
    /usr/share/perl5
.

编辑4 : 这是一个重现问题的简短代码。 如你所见,我只是填补了记忆。

use strict;
use warnings;

my ($xx,$yy);  # Coordinate variables
my (@elems);   # Array of elements to be stored on each matrix position

# Generate an array of 3000 floating point values.
# The list will be added to each array element. In the true script
# of course, each element has a list of completely different values.
# Here I use the same list of values for simplicity.
for ($xx = 1; $xx < 3000; $xx++)  {
  push( @elems, 1+$xx/10000 );
}

# Fill in each matrix element with the generated array
my @psStored;
for ($xx = 0; $xx < 300; $xx++)  {
  print "Row [$xx]\n";
  for ($yy = 0; $yy < 300; $yy++)  {
    push( @{$psStored[$xx][$yy]}, @elems );
  }
}

这是&#34;免费&#34;的结果。在崩溃之前(机器上运行了一些并行进程):

[parisia@gloria01 ~]$ free
             total       used       free     shared    buffers     cached
Mem:     132015788   46395504   85620284          0     217192   16979772
-/+ buffers/cache:   29198540  102817248
Swap:    268435452          0  268435452

更新1

我进一步调查了。正如建议我使用Devel :: Size并检查$ psStored的大小。输出的最后几行(以$ yy打印每个周期结束时的大小)是:

Row [226]
8772773032
Row [227]
8811419600
Row [228]
Out of memory!

脚本发出错误时进程的大小为: VIRT:8943960,RES:8.406g

但是,我尝试了以下脚本,该脚本按命令行中的指定分配给定大小的字符串(以千兆字节为单位):

use strict;
use warnings;

my $size = $ARGV[0];
print "$size GB ";
$size = int($size * 1000000000);
print "($size bytes)...\n";
my $var = "x" x $size;
print "Allocated\n";

此脚本对大型分配没有任何问题。例如,我可以请求30 GB,并且我从&#34; top&#34;得到以下输出。在脚本完成之前: VIRT:56.004g,RES:0.054t

因此,在处理数组时会有一些干扰分配的东西,但我不明白发生了什么。我也尝试过哈希,但是我在8-9GB左右也有同样的限制。

2 个答案:

答案 0 :(得分:1)

我怀疑$xx$yy的值相当大且稀疏(即它们之间存在很大差距)。这意味着Perl必须为所有干预值创建数组元素,即使它们中没有数据。

数据结构的设计主要取决于构建后要对其执行的操作以及访问方式。最节省空间的方法是使用哈希,如果你有

$xx = 1024
$yy = 2048

然后不是将频率存储在$ps_stored[1024][2048](创建$ps_stored[0]$ps_stored[1023]$ps_stored[1024][0]$ps_stored[1024][2047]并将其留空)可以将它存储在 hash $ps_stored{'1024,2048'}中,这根本不会浪费任何空间。

由于你没有说明你将如何使用这些数据,我无法判断它是否可以像这样工作,但是这里有一些代码来代替那些以这种方式构建哈希的代码。

use strict;
use warnings;
use autodie;

my %ps_stored;

open my $ps_full_input, '<', 'fullPsIn.dat';
my $counter = <$ps_full_input>;  # First element is counter of spectra

while (<$ps_full_input>)  {
  my @elems = split;
  my ($xx, $yy, $freq) = @elems;
  push @{ $ps_stored{"$xx,$yy"} }, \@elems;
}

close $ps_full_input;

请注意以下内容

  • 您必须始终检查open来电是否成功。忽略失败的open将使您的程序无缘无故地产生废话。你可以写一个明确的

    open my $ps_full_input, '<', 'fullPsIn.dat' or die $!;
    

    或者您可以use autodie位于程序的顶部,如果您的代码中有多个open次来电话,这将非常有用

  • 您必须始终 use strictuse warnings位于每个Perl程序的顶部,并声明所有变量尽可能接近其第一个使用点与my。由于您的代码是一个示例,因此不清楚您是否有strictwarnings,但根本没有声明,所以出现问题

  • 习惯使用Perl的人会感谢您在本地标识符中仅使用小写字母,数字和下划线。大写字母保留用于包和模块名称,如Data::Dumper

  • push之前,无需为空数组的引用预设标量值。只要标量仍为push,第一次使用undef时,数组将自动验证。例如

    my $aref;
    push @{ $aref }, 1, 2, 3;
    

    具有相同的效果
    my $aref;
    $aref = [];
    push @{ $aref }, 1, 2, 3;
    
  • 我已将引用推送到@elems数组到ps_stored列表。我无法确定$xx$yy的特定值是否会出现多次,但如果它们确实存在,那么您的方式只会将所有不同的@elems集推送到单个列表中,这可能是尴尬的分裂回个人集。如果您推送引用而不是分开

我希望这会有所帮助

答案 1 :(得分:0)

OP,你能用一个非常短的测试脚本复制问题吗?也许你可以发布测试脚本,我会在我的机器上运行它。也许你没写过的模块会变得很糟糕。


使用哈希尝试此代码。

use strict;
use warnings;

my ($xx,$yy);  # Coordinate variables
my (@elems);   # Array of elements to be stored on each matrix position

# Generate an array of 3000 floating point values.
# The list will be added to each array element. In the true script
# of course, each element has a list of completely different values.
# Here I use the same list of values for simplicity.
for ($xx = 1; $xx < 3000; $xx++)  {
  push( @elems, 1+$xx/10000 );
}

# Fill in each matrix element with the generated array
my %psStored;
my $s;
$s=join('=',@elems);
for ($xx = 0; $xx < 300; $xx++)  {
  print "Row [$xx]\n";
  for ($yy = 0; $yy < 300; $yy++)  {
    $psStored{$xx,$yy} = $s; # Here I join all elements and store them as a string.
    #push( @{$psStored[$xx][$yy]}, @elems );
  }
}