我试图解析一个包含科学记数法的页面(希腊语等)。 这是page。请注意,还有其他页面需要解析更多符号。
例如,它包含以下HTML
<td> human Interleukin 1β </td>
其中&beta
编码希腊字母。
然而,在使用HTML::TableExtract解析后,它变为:
human Interleukin 1\x{3b2}
有没有办法让下面的代码按原样捕获原始HTML,
即maintaning 1&beta
。
use HTML::TableExtract;
use Data::Dumper;
# Local file for http://www.violinet.org/vaxjo/vaxjo_detail.php?c_vaxjo_id=55
my $file = "vaxjo_detail.php\?c_vaxjo_id\=50.html";
my $te = HTML::TableExtract->new();
$te->parse_file($file);
my ($table) = $te->tables;
print Dumper $table ;
答案 0 :(得分:3)
它没有返回
human Interleukin 1\x{3b2}
它返回了
human Interleukin 1β
Dumper只是将其打印为Perl字符串文字
"human Interleukin 1\x{3b2}"
无论如何,如果您想要原始HTML而不是它所代表的文本,我相信将keep_html => 1
传递给构造函数就可以了。