使用Perl解析html

时间:2011-09-06 12:15:17

标签: html perl href read-write

我有以下html -

<a href="http://address.com">John</a>: I really <b>love</b> <b>soccer</b>;

我想把它解析成一个csv,我会有

name = John

评论=我真的很喜欢足球。

关键词=爱情,足球

在控制台应用中,非常感谢任何帮助。

2 个答案:

答案 0 :(得分:11)

CPAN上有很多HTML解析器,我首选的是HTML::TreeBuilder::XPath

Text::CSV将帮助您从提取的数据中生成CSV。

答案 1 :(得分:4)

以下是如何使用HTML::TreeBuilder进行解析的示例:

use HTML::TreeBuilder;

my $html = HTML::TreeBuilder->new_from_content(<<END_HTML);
<a href="http://address.com">John</a>: I really <b>love</b> <b>soccer</b>;
END_HTML

my $name     = $html->find('a')->as_text;               # "John"
my @keywords = map { $_->as_text } $html->find('b');    # "love", "soccer"
my $comment  = $html->as_text;                          # "John: I really love soccer; "

清理$comment作为练习。