如何启用HTML :: TableExtract来识别特殊字符

时间:2013-01-22 05:16:45

标签: html perl parsing html-table

我试图解析一个包含科学记数法的页面(希腊语等)。 这是page。请注意,还有其他页面需要解析更多符号。

例如,它包含以下HTML

<td> human Interleukin 1&beta;        </td>

其中&beta编码希腊字母。

然而,在使用HTML::TableExtract解析后,它变为:

human Interleukin 1\x{3b2} 

有没有办法让下面的代码按原样捕获原始HTML, 即maintaning 1&beta

use HTML::TableExtract;
use Data::Dumper;

# Local file for http://www.violinet.org/vaxjo/vaxjo_detail.php?c_vaxjo_id=55
my $file = "vaxjo_detail.php\?c_vaxjo_id\=50.html";

my $te = HTML::TableExtract->new();
$te->parse_file($file);
my ($table) = $te->tables;
print Dumper $table ;

1 个答案:

答案 0 :(得分:3)

它没有返回

human Interleukin 1\x{3b2} 

它返回了

human Interleukin 1β

Dumper只是将其打印为Perl字符串文字

"human Interleukin 1\x{3b2}"

无论如何,如果您想要原始HTML而不是它所代表的文本,我相信将keep_html => 1传递给构造函数就可以了。