我有这个小的Perl脚本,它下载XML文件,使用XML::Smart
解析它,并通过删除和重新创建表将内容复制到MySQL数据库中。
这个脚本曾经在Centos 5上运行良好,但最近磁盘崩溃,新驱动器上有Centos 6。
XML文件大小为21.5MB。
我知道它会在解析文件时陷入困境,因为数据库表永远不会被删除或创建。
my $XML = XML::Smart->new($location.'CategoriesList.xml')
or die("Unable to parse CategoriesList.xml: $!");;
$XML = $XML->cut_root();
$XML = $XML->cut_root();
$dbh->do("DROP TABLE IF EXISTS ice_categories");
$dbh->do("CREATE TABLE ice_categories (
category_id int(11) not null,
parent_cat_id int(11) not null,
category_name varchar(100) not null default '',
category_description varchar(100) not null default '',
category_image varchar(100) not null default '',
category_thumb varchar(100) not null default '',
KEY (category_id), KEY (parent_cat_id))
CHARACTER SET utf8 COLLATE utf8_unicode_ci;");
my @Categories = @{$XML->{CategoriesList}{Category}};
my $c_categories = 0;
foreach my $category (@Categories) {
my $cat_name = ucwords($category->{Name}('langid','eq','1')->{Value});
#print $category->{ID} . " => " . $cat_name . "\n";
my $cat_desc = $category->{Description}('langid','eq','1')->{Value};
my $cat_parent = $category->{ParentCategory}{ID};
$dbh->do("INSERT ice_categories XXXX ");
$c_categories++;
}
print "$c_categories categories imported.\n";
}
我不是很擅长Perl,所以任何帮助都会受到赞赏。我看过XML::Twig
,但我不确定如何在这里使用它。
xml文件的示例。
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE ICECAT-interface SYSTEM "http://data.icecat.biz/dtd/ICECAT-
interface_response.dtd">
<ICECAT-interface>
<Response Date="Sat Apr 26 14:46:53 2014" ID="13219513" Request_ID="1398516412"
Status="1">
<CategoriesList>
<Category ID="127" LowPic="http://images.icecat.biz/img/low_pic/127-563.jpg"
Score="9725" Searchable="0" ThumbPic="http://images.icecat.biz/thumbs/CAT127.jpg"
UNCATID="43171520" Visible="0">
<Description ID="548838" Value="Device or stand where you can rest your mobile or
fixed telephone." langid="1"/>
<Description ID="8310" Value="" langid="2"/>
<Keywords ID="3274" Value="" langid="1"/>
<Keywords ID="3275" Value="" langid="2"/>
<Keywords ID="3276" Value="" langid="3"/>
<Keywords ID="3277" Value="" langid="4"/>
<Keywords ID="3278" Value="" langid="5"/>
<Name ID="255" Value="telephone rests" langid="1"/>
<Name ID="471173" Value="telefoon steunen" langid="2"/>
<Name ID="343915" Value="autres téléphones" langid="3"/>
答案 0 :(得分:0)
XML::Twig
的一个不错的功能是,它支持twig_handers
“处理”您正在使用的XML,并且它具有purge
方法,因此您可以查看它可以减少内存占用。
我对XML::Smart
不够熟悉,肯定会说100%,但看起来你只是在处理Category
元素。
这个应该工作,但是使用部分XML样本(因此无效)我不能完全肯定地说。
use strict;
use warnings;
use XML::Twig;
sub process_category {
my ( $twig, $category ) = @_;
my $cat_name = $category->get_xpath('./Name[@mode="source"]', 0)->text;
my $cat_name = $category->get_xpath('./Name[@lang="1"]', 0)->text;
my $cat_desc = $category->get_xpath('./Description[@lang="1"]', 0)->text;
### do something with cat_name and cat_desc
my $cat_parent = $category -> first_child('ParentCategory') -> first_child_text('ID');
$twig -> purge; #discard data thus far.
}
my $twig =
XML::Twig->new( twig_handlers => { 'Category' => \&process_category } );
$twig->parsefile('your_xml.xml');
我担心我不知道'ParentCategory'来自哪里,所以我没有考虑到它。我假设它只是你没有展示的XML中的一个元素,但它更复杂,然后purge
可能没那么有用。