Question

我试图解析一个包含科学记数法的页面（希腊语等）。这是page。请注意，还有其他页面需要解析更多符号。

例如，它包含以下HTML

<td> human Interleukin 1&beta;        </td>

其中&beta编码希腊字母。

然而，在使用HTML::TableExtract解析后，它变为：

human Interleukin 1\x{3b2}

有没有办法让下面的代码按原样捕获原始HTML，即maintaning 1&beta。

use HTML::TableExtract;
use Data::Dumper;

# Local file for http://www.violinet.org/vaxjo/vaxjo_detail.php?c_vaxjo_id=55
my $file = "vaxjo_detail.php\?c_vaxjo_id\=50.html";

my $te = HTML::TableExtract->new();
$te->parse_file($file);
my ($table) = $te->tables;
print Dumper $table ;

Answer 1

它没有返回

human Interleukin 1\x{3b2}

它返回了

human Interleukin 1β

Dumper只是将其打印为Perl字符串文字

"human Interleukin 1\x{3b2}"

无论如何，如果您想要原始HTML而不是它所代表的文本，我相信将keep_html => 1传递给构造函数就可以了。

如何启用HTML :: TableExtract来识别特殊字符

1 个答案: