应用错误收集

在网站HTML中查找标签

时间：2010-09-08 15:46:40

标签： html perl data-mining web-scraping

我正在使用Perl。

我有标签，例如：“XYZ_PKM_HTML” 我希望能够提供基本网址，例如：www.example.com 以及获取此标记出现的HTML页面（不一定是主页面，这很容易）。可能吗？任何的想法？（或者已经制作了模块，看过cpan，有一些有趣的东西，但不能安装）

谢谢，

3 个答案:

答案 0 :(得分：4)

MJD有一个关于在Higher-Order Perl中编写网络蜘蛛的扩展示例。这是第4.7节。请参阅page 187 in Chapter 4。

当然，您也可以尝试他提到的WWW::SimpleRobot模块。

答案 1 :(得分：1)

您似乎想要实现网站抓取工具和搜索者。您通常使用WWW::Mechanize执行前者，使用HTML::Twig执行前者

答案 2 :(得分：0)

在Perl中尝试使用Web-Scraper。 Web-Scraper module info。它易于使用，您可以搜索特定的标签或元素，并从中获取数据。