我正在使用Perl。
我有标签,例如:“XYZ_PKM_HTML” 我希望能够提供基本网址,例如:www.example.com 以及获取此标记出现的HTML页面(不一定是主页面,这很容易)。 可能吗?任何的想法? (或者已经制作了模块,看过cpan,有一些有趣的东西,但不能安装)
谢谢,
答案 0 :(得分:4)
MJD有一个关于在Higher-Order Perl中编写网络蜘蛛的扩展示例。这是第4.7节。请参阅page 187 in Chapter 4。
当然,您也可以尝试他提到的WWW::SimpleRobot模块。
答案 1 :(得分:1)
您似乎想要实现网站抓取工具和搜索者。您通常使用WWW::Mechanize
执行前者,使用HTML::Twig
执行前者
答案 2 :(得分:0)
在Perl中尝试使用Web-Scraper。 Web-Scraper module info。 它易于使用,您可以搜索特定的标签或元素,并从中获取数据。