从AJAX / Javascript网页上刮取内容

时间:2012-12-04 14:47:47

标签: ajax web-scraping

我需要在网页上进行一些屏幕抓取,我需要的内容是由AJAX生成的。在初始页面上有一个包含4个选项卡的表。当您单击任何选项卡时,表的内容会发生变化。我只需要第3个标签中的内容。 我使用谷歌浏览器'检查元素'工具来查看请求和发布数据是什么,我可以获取我需要的信息,当我把信息(会话ID和许多其他cookie数据以及发布数据)从将inspect元素结果导入PHP curl请求。但这仅适用于会议持续的30分钟。有谁知道我可以获得这些信息的方式?

2 个答案:

答案 0 :(得分:0)

我不会在这里重现代码,但我会指出你的答案。 在这本书中:

http://www.amazon.com/Webbots-Spiders-Screen-Scrapers-Developing/dp/1593273975/ref=dp_ob_image_bk

必须为那些做你正在做的事的人买。

答案 1 :(得分:0)

最后我使用htmlunit来获取我需要的内容。我还发现HTMLUnit Scripter对于帮助生成所需的Java代码非常有用。