如何使用ajax元素抓取网页

时间:2013-01-09 18:08:34

标签: ajax web scrape

我想抓取一些网页,例如以下

http://www.youtube.com/user/koglin66/feed?filter=2

但是有一个'加载更多'按钮,它与ajax请求相关

http://www.youtube.com/channel_ajax?action_load_more_feed_items=1&activity_view=1&paging=1352148528&channel_id=UCCw8aVnsIeu9S6OPQyaQ14g

我想抓取整个页面。 手动,我反复点击按钮,直到无法加载, 通过自动化,我如何抓取整个页面?谢谢!

2 个答案:

答案 0 :(得分:1)

是的,您可以使用Selenium IDE,或使用其他程序/库与浏览器核心进行点击操作。像webkit,IE的activex。

你可以试试FMiner http://www.fminer.com/,它可以在浏览器上记录和播放人为操作来抓取数据,但它不是免费的。

答案 1 :(得分:0)

我最近遇到了与我想废弃的其他网站相同的问题。我使用Java并在网上进行一些研究后,我使用了Selenium IDE for firefox,你可以编写Java Junit测试用例,它会自动打开网页并点击按钮,填写表格等。 它还支持C#,Python,Ruby等

我用它来点击“加载更多”按钮,当所有点击后我完全加载页面时,我手动保存了它。

你可以从他们的网站下载Selenium,我发现这个youtube视频也很有用http://www.youtube.com/watch?v=twdDfDOrHC4