什么Perl模块捕获任何和所有网页数据,无论数据如何显示?

时间:2013-02-07 15:10:19

标签: perl perl-module

我正在寻找一个模块,它将捕获浏览器中显示的所有数据(如Firefox)。它需要捕获所有CSS/JS/AJAX数据。我试图使用LWP::UserAgent,这是一些如何不捕获所有数据。

如果您想查看我正在查看的网页:

http://finance.yahoo.com/q?s=SAPE&ql=1

您可以看到其菜单栏(主页,投资,新闻,个人理财等)下方有一个水平栏,其中包含日期和时间信息,例如:

2013年2月6日星期三,美国东部时间晚上8:10 - 美国市场关闭

这可以在任何浏览器中看到,但是当Perl获取网页时,日期,时间以及市场是开放还是关闭都不在捕获的数据中。

我是否需要使用Wireshark来嗅出我需要的东西,或者是否有一个模块可以复制浏览器并捕获这些数据,还是有更好的方法?

我认为LWP::UserAgent会捕获所有数据,但显然我错了..

感谢。

1 个答案:

答案 0 :(得分:1)

如果您使用页面的“查看源代码”,这主要是LWP :: UserAgent看到的内容。要获取包含动态加载的ajax数据的页面,基于javascript等构建的菜单,您需要将页面加载到Web浏览器或node.js或phantomJs或类似工具中,这些工具可以运行javascripts并构建你看到它的页面。然后使用他们的DOM模型来查找相关数据(例如使用jQuery)。