我需要在网页上进行一些屏幕抓取,我需要的内容是由AJAX生成的。在初始页面上有一个包含4个选项卡的表。当您单击任何选项卡时,表的内容会发生变化。我只需要第3个标签中的内容。 我使用谷歌浏览器'检查元素'工具来查看请求和发布数据是什么,我可以获取我需要的信息,当我把信息(会话ID和许多其他cookie数据以及发布数据)从将inspect元素结果导入PHP curl请求。但这仅适用于会议持续的30分钟。有谁知道我可以获得这些信息的方式?
答案 0 :(得分:0)
我不会在这里重现代码,但我会指出你的答案。 在这本书中:
http://www.amazon.com/Webbots-Spiders-Screen-Scrapers-Developing/dp/1593273975/ref=dp_ob_image_bk
必须为那些做你正在做的事的人买。
答案 1 :(得分:0)
最后我使用htmlunit来获取我需要的内容。我还发现HTMLUnit Scripter对于帮助生成所需的Java代码非常有用。