使用Perl从HTML页面中提取信息

时间:2014-09-29 01:17:06

标签: html perl parsing

致力于测试基于Web的应用程序。基于Web的应用程序定期引入新按钮,新选项卡等。

建立一个读取HTML页面并从中提取信息的自动化工具会很好,我想:

  • 有哪些按钮
  • 按钮会在哪里引导我
  • 有哪些标签

请问是否有人在使用Perl执行类似任务时有任何经验?

由于

1 个答案:

答案 0 :(得分:3)

如果您想对网页浏览进行任何自动模拟,WWW::Mechanize应该是您的第一个停靠点。从WWW :: Mechanize的概要:

  

WWW::Mechanize或简称Mech,是用于有状态程序化网页浏览的Perl模块,用于自动化与网站的互动。

     

功能包括:

     
      
  • 所有HTTP方法
  •   
  • 支持高级超链接和HTML表单,无需解析   HTML自己
  •   
  • SSL支持
  •   
  • 自动Cookie
  •   
  • 自定义HTTP标头
  •   
  • 自动处理重定向
  •   
  • 代理
  •   
  • HTTP身份验证
  •   

有一整套处理链接的方法 - 例如。 follow_linkfind_link - 以及寻找输入 - 例如find_all_inputs - 您可以模拟表单填写和其他典型的浏览活动。

还有许多用于DOM解析和操作的模块 - 例如。 Mojo::DOMXML::LibXML

简而言之,应该有大量的perl模块来做你想做的事情,所以编写你自己的框架是没有必要的。