我想抓取一些网页,例如以下
http://www.youtube.com/user/koglin66/feed?filter=2
但是有一个'加载更多'按钮,它与ajax请求相关
http://www.youtube.com/channel_ajax?action_load_more_feed_items=1&activity_view=1&paging=1352148528&channel_id=UCCw8aVnsIeu9S6OPQyaQ14g
我想抓取整个页面。 手动,我反复点击按钮,直到无法加载, 通过自动化,我如何抓取整个页面?谢谢!
答案 0 :(得分:1)
是的,您可以使用Selenium IDE,或使用其他程序/库与浏览器核心进行点击操作。像webkit,IE的activex。
你可以试试FMiner http://www.fminer.com/,它可以在浏览器上记录和播放人为操作来抓取数据,但它不是免费的。
答案 1 :(得分:0)
我最近遇到了与我想废弃的其他网站相同的问题。我使用Java并在网上进行一些研究后,我使用了Selenium IDE for firefox,你可以编写Java Junit测试用例,它会自动打开网页并点击按钮,填写表格等。 它还支持C#,Python,Ruby等
我用它来点击“加载更多”按钮,当所有点击后我完全加载页面时,我手动保存了它。
你可以从他们的网站下载Selenium,我发现这个youtube视频也很有用http://www.youtube.com/watch?v=twdDfDOrHC4