在HTML标签Perl中抓取数据

时间:2013-07-15 03:40:58

标签: html perl web-scraping www-mechanize

我正在写一个网络刮刀,我是一名Perl新手。我正在使用HTML::TreeBuilder来获取我需要的数据,但我遇到了一个我不确定如何处理的情况。这是一些HTML示例:

<div class="anything" val="20" name="matchup">someUniqueData</div>

我想从此HTML标记中提取val。我一直在使用findvalues()来完成我的大部分工作,但我不知道这是否可以从内部标签中提取数据。我没有成功地掩盖了文档。有这种刮刮的简单解决方案吗?

1 个答案:

答案 0 :(得分:3)

您需要(使用HTML::TreeBuilder::XPath):

my ($val) = $tree->findvalues('//div[@class="anything"]/@val');