我正在寻找一个模块,它将捕获浏览器中显示的所有数据(如Firefox)。它需要捕获所有CSS/JS/AJAX
数据。我试图使用LWP::UserAgent
,这是一些如何不捕获所有数据。
如果您想查看我正在查看的网页:
http://finance.yahoo.com/q?s=SAPE&ql=1
您可以看到其菜单栏(主页,投资,新闻,个人理财等)下方有一个水平栏,其中包含日期和时间信息,例如:
2013年2月6日星期三,美国东部时间晚上8:10 - 美国市场关闭
这可以在任何浏览器中看到,但是当Perl获取网页时,日期,时间以及市场是开放还是关闭都不在捕获的数据中。
我是否需要使用Wireshark来嗅出我需要的东西,或者是否有一个模块可以复制浏览器并捕获这些数据,还是有更好的方法?
我认为LWP::UserAgent
会捕获所有数据,但显然我错了..
感谢。
答案 0 :(得分:1)
如果您使用页面的“查看源代码”,这主要是LWP :: UserAgent看到的内容。要获取包含动态加载的ajax数据的页面,基于javascript等构建的菜单,您需要将页面加载到Web浏览器或node.js或phantomJs或类似工具中,这些工具可以运行javascripts并构建你看到它的页面。然后使用他们的DOM模型来查找相关数据(例如使用jQuery)。