在网站HTML中查找标签

时间:2010-09-08 15:46:40

标签: html perl data-mining web-scraping

我正在使用Perl。

我有标签,例如:“XYZ_PKM_HTML” 我希望能够提供基本网址,例如:www.example.com 以及获取此标记出现的HTML页面(不一定是主页面,这很容易)。 可能吗?任何的想法? (或者已经制作了模块,看过cpan,有一些有趣的东西,但不能安装)

谢谢,

3 个答案:

答案 0 :(得分:4)

MJD有一个关于在Higher-Order Perl中编写网络蜘蛛的扩展示例。这是第4.7节。请参阅page 187 in Chapter 4

当然,您也可以尝试他提到的WWW::SimpleRobot模块。

答案 1 :(得分:1)

您似乎想要实现网站抓取工具和搜索者。您通常使用WWW::Mechanize执行前者,使用HTML::Twig执行前者

答案 2 :(得分:0)

在Perl中尝试使用Web-Scraper。 Web-Scraper module info。 它易于使用,您可以搜索特定的标签或元素,并从中获取数据。