Perl XML :: Smart内存不足!错误

时间:2014-04-27 12:04:36

标签: mysql xml perl

我有这个小的Perl脚本,它下载XML文件,使用XML::Smart解析它,并通过删除和重新创建表将内容复制到MySQL数据库中。

这个脚本曾经在Centos 5上运行良好,但最近磁盘崩溃,新驱动器上有Centos 6。

XML文件大小为21.5MB。

我知道它会在解析文件时陷入困境,因为数据库表永远不会被删除或创建。

  my $XML = XML::Smart->new($location.'CategoriesList.xml')
      or die("Unable to parse CategoriesList.xml: $!");;
  $XML = $XML->cut_root();
  $XML = $XML->cut_root();

  $dbh->do("DROP TABLE IF EXISTS ice_categories");
  $dbh->do("CREATE TABLE ice_categories (
      category_id int(11) not null,
      parent_cat_id int(11) not null,
      category_name varchar(100) not null default '',
      category_description varchar(100) not null default '',
      category_image varchar(100) not null default '',
      category_thumb varchar(100) not null default '',
      KEY (category_id), KEY (parent_cat_id))
      CHARACTER SET utf8 COLLATE utf8_unicode_ci;");

  my @Categories = @{$XML->{CategoriesList}{Category}};

  my $c_categories = 0;
  foreach my $category (@Categories) {
    my $cat_name = ucwords($category->{Name}('langid','eq','1')->{Value});
    #print $category->{ID} . " => " . $cat_name . "\n";
    my $cat_desc = $category->{Description}('langid','eq','1')->{Value};
    my $cat_parent = $category->{ParentCategory}{ID};
    $dbh->do("INSERT ice_categories XXXX ");
    $c_categories++;
  }

  print "$c_categories categories imported.\n";
}

我不是很擅长Perl,所以任何帮助都会受到赞赏。我看过XML::Twig,但我不确定如何在这里使用它。

xml文件的示例。

    <?xml version="1.0" encoding="UTF-8"?>
    <!DOCTYPE ICECAT-interface SYSTEM "http://data.icecat.biz/dtd/ICECAT-   
      interface_response.dtd">
   <ICECAT-interface>
   <Response Date="Sat Apr 26 14:46:53 2014" ID="13219513" Request_ID="1398516412" 
   Status="1">
        <CategoriesList>
        <Category ID="127" LowPic="http://images.icecat.biz/img/low_pic/127-563.jpg"   
        Score="9725" Searchable="0" ThumbPic="http://images.icecat.biz/thumbs/CAT127.jpg" 
         UNCATID="43171520" Visible="0">
         <Description ID="548838" Value="Device or stand where you can rest your mobile or 
        fixed telephone." langid="1"/>
        <Description ID="8310" Value="" langid="2"/>
        <Keywords ID="3274" Value="" langid="1"/>
        <Keywords ID="3275" Value="" langid="2"/>
        <Keywords ID="3276" Value="" langid="3"/>
        <Keywords ID="3277" Value="" langid="4"/>
        <Keywords ID="3278" Value="" langid="5"/>
        <Name ID="255" Value="telephone rests" langid="1"/>
        <Name ID="471173" Value="telefoon steunen" langid="2"/>
        <Name ID="343915" Value="autres téléphones" langid="3"/>

1 个答案:

答案 0 :(得分:0)

XML::Twig的一个不错的功能是,它支持twig_handers“处理”您正在使用的XML,并且它具有purge方法,因此您可以查看它可以减少内存占用。

我对XML::Smart不够熟悉,肯定会说100%,但看起来你只是在处理Category元素。

这个应该工作,但是使用部分XML样本(因此无效)我不能完全肯定地说。

use strict;
use warnings;
use XML::Twig;

sub process_category {
    my ( $twig, $category ) = @_;
    my $cat_name = $category->get_xpath('./Name[@mode="source"]', 0)->text;

    my $cat_name = $category->get_xpath('./Name[@lang="1"]', 0)->text;
    my $cat_desc = $category->get_xpath('./Description[@lang="1"]', 0)->text;

    ### do something with cat_name and cat_desc

    my $cat_parent = $category -> first_child('ParentCategory') -> first_child_text('ID');
    $twig -> purge; #discard data thus far.
}

my $twig =
    XML::Twig->new( twig_handlers => { 'Category' => \&process_category } );
$twig->parsefile('your_xml.xml');

我担心我不知道'ParentCategory'来自哪里,所以我没有考虑到它。我假设它只是你没有展示的XML中的一个元素,但它更复杂,然后purge可能没那么有用。