使用perl从HTML中提取部分内容

时间:2012-12-23 05:25:56

标签: regex perl html-parsing

我想使用perl在HTML字符串中获取section标记的所有内容。我正在使用以下代码行,但它似乎不起作用:

$article_content =~ s/^.*?<section>(.*)<\/section>.*?$/$1/;

3 个答案:

答案 0 :(得分:1)

(.*)更改为(.*?),看看是否有帮助。

答案 1 :(得分:1)

不要使用正则表达式来解析HTML 。您无法使用正则表达式可靠地解析HTML。一旦HTML改变了您的期望,您的代码就会被破坏。有关如何使用Perl模块正确解析HTML的示例,请参阅http://htmlparsing.com/perl.html

答案 2 :(得分:1)

第一个问题是,您认为.与任何字符匹配,但仅在使用/s时才会出现这种情况。