如何使用Perl提取和格式化div标签中的HTML?

时间:2009-12-21 19:21:33

标签: html perl

注意:

问题:

  • 将Perl与LWP一起使用,对于以下HTML,如何搜索以获取开始标记和结束标记之间的文字字符串 < b> div 然后获取上述开始和结束标记之间的所有文本,而粘贴格式化文本标记

    <div id="foo" class="blah">
    <tt>
    test
    <br>test 
    <br>whatever
    <br>test
    </div>
    

要打印到STDOUT:

test
test
whatever
test 

2 个答案:

答案 0 :(得分:4)

$node->find_by_attribute(attribute, value) and $node->as_text() 

http://lwp.interglacial.com/ch09_03.htm

答案 1 :(得分:2)

my @elms = $tree->look_down(
  _tag => "div",
  sub { $_[0]->as_text =~ /whatever/ },
);

for my $elm (@elms) {
  print $elm->as_trimmed_text;
}