对于我的生活,我无法理解实体处理的XML :: Twig文档。
我已经使用HTML :: Tidy生成了一些XML。电话如下:
my $tidy = HTML::Tidy->new({
'indent' => 1,
'break-before-br' => 1,
'output-xhtml' => 0,
'output-xml' => 1,
'char-encoding' => 'raw',
});
$str = "foo bar";
$xml = $tidy->clean("<xml>$str</xml>");
产生:
<html>
<head>
<meta content="tidyp for Linux (v1.02), see www.w3.org" name="generator" />
<title></title>
</head>
<body>foo bar</body>
</html>
处的XML :: Twig(可理解)barf。我想做一些转换,通过XML :: Twig运行它:
my $twig = XML::Twig->new(
twig_handlers => {... handlers ...}
);
$twig->parse($xml);
$twig->parse
上的
行barf,但我无法弄清楚如何以编程方式添加
元素 。我尝试过这样的事情:
my $entity = XML::Twig::Entity->new("nbsp", " ");
$twig->entity_list->add($entity);
$twig->parse($xml);
......但没有快乐。
请帮助=)
答案 0 :(得分:5)
在这种情况下,一个肮脏但有效的技巧就是添加假的DTD声明。
然后执行解析的XML :: Parser将假定该实体是在DTD中定义的,并且不会对其进行barf。
要删除伪造的DTD声明,您可以输出树枝的根。如果您需要不同的声明,请创建它并替换当前声明:
#!/usr/bin/perl
use strict;
use warnings;
use XML::Twig;
my $fake_dtd= '<!DOCTYPE head SYSTEM "foo"[]>'; # foo may not even exist
my $xml='<html>
<head>
<meta content="tidyp for Linux (v1.02), see www.w3.org" name="generator" />
<title></title>
</head>
<body>foo bar</body>
</html>';
XML::Twig->new->parse( $fake_dtd . $xml)->root->print;
答案 1 :(得分:3)
use strict;
use XML::Twig;
my $doctype = '<?xml version="1.0" encoding="utf-8"?><!DOCTYPE html [<!ENTITY nbsp " ">]>';
my $xml = '<html><head><meta content="tidyp for Linux (v1.02), see www.w3.org" name="generator" /><title></title></head><body>foo bar</body></html>';
my $xTwig = XML::Twig->new();
$xTwig->safe_parse($doctype . $xml) or die "Failure to parse XML : $@";
print $xTwig->sprint();
答案 2 :(得分:1)
可能有更好的方法,但下面的代码对我有用:
my $filter = sub {
my $text = shift;
my $ascii = "\x{a0}"; # non breaking space
my $nbsp = ' ';
$text =~ s/$ascii/$nbsp/;
return $text;
};
XML::Twig->new( output_filter => $filter )
->parse_html( $xml )
->print;