使用perl从多表html文件中提取特定表

时间:2012-10-23 20:10:54

标签: perl html-parsing extract

我有一个包含三个表的html文件。但我想只提取三个中的一个表。我该怎么做?

2 个答案:

答案 0 :(得分:1)

您可以使用已知的Perl模块执行此操作,例如:

  • LWP
  • WWW::Mechanize
  • HTML::TreeBuilder
  • HTML::TreeBuilder::XPath

全部都在http://search.cpan.org

最后一个Perl模块非常有用,您可以使用Xpath表达式,如:

//table[0]/tr[3]/td[2]/text()

例如,要从第一个td打印第三个tr中的第二个table元素的文本。

答案 1 :(得分:0)

用于提取HTML文档部分的好模块是HTML::Query

它提供了一个类似jQuery的界面,用于选择要提取的文档的哪个部分。