我有一个包含三个表的html文件。但我想只提取三个中的一个表。我该怎么做?
答案 0 :(得分:1)
您可以使用已知的Perl
模块执行此操作,例如:
LWP
WWW::Mechanize
HTML::TreeBuilder
HTML::TreeBuilder::XPath
最后一个Perl模块非常有用,您可以使用Xpath
表达式,如:
//table[0]/tr[3]/td[2]/text()
例如,要从第一个td
打印第三个tr
中的第二个table
元素的文本。
答案 1 :(得分:0)
用于提取HTML文档部分的好模块是HTML::Query
。
它提供了一个类似jQuery的界面,用于选择要提取的文档的哪个部分。