到目前为止,我一直在使用wget和curl来进行屏幕抓取。现在我想切换到perl。什么是一个很好的教程,将涵盖perl中的基本Web编程(最好不重述基础知识)?我说的是基本的东西,比如获取和解析页面,提交表单,代理等等。
答案 0 :(得分:2)
我过去曾使用WWW-Mechanize来实现基本的网页抓取功能,包括表单提交等。
有一些非常好的examples。
答案 1 :(得分:1)
这些应该涵盖您正在寻找的所有内容:
http://www.perl.com/pub/2002/08/20/perlandlwp.html
答案 2 :(得分:0)
除了Perl之外你需要的工具:
WWW::Mechanize
模块。HTML::TreeBuilder
&特别是HTML::TreeBuilder::XPath
和HTML::Query
。当你想要从HTML文档中获取实际数据时,最后两个将变得非常方便。HTML::TableExtract
也是一个很好的模块,可以在需要时从HTML表中提取数据。基本上,使用上述所有内容将使您能够抓取大多数网站。
玩得开心( - :