直接链接到异步加载的注释?

时间:2012-03-20 14:13:33

标签: python jquery xmlhttprequest screen-scraping web-scraping

我正在玩change.org并试图下载一份请愿书上的几条评论。为此,我想知道当用户点击“加载更多原因”时评论的来源。例如,请看这里:

http://www.change.org/petitions/tell-usda-to-stop-using-pink-slime-in-school-food

查看Chrome中的XHR请求,我看到请求被发送到http://www.change.org/petitions/tell-usda-to-stop-using-pink-slime-in-school-food/opinions?page=2&role=comments当然,页码会随着评论的加载次数而变化。

但是,当我在浏览器中尝试时,此链接会显示空白页面。这是因为网址中有一些丢失的数据,还是因为javascript中的某些身份验证步骤导致请求首先出现?

任何指针都将受到赞赏。谢谢!

编辑:感谢第一个回复,我发现在使用控制台时正在接收数据。从python脚本发出请求时如何接收相同的数据。我模仿浏览器还是有办法只使用urllib?

1 个答案:

答案 0 :(得分:1)

他们必须验证请求的来源。如果你去网站打开控制台并运行:

$.get('http://www.change.org/petitions/tell-usda-to-stop-using-pink-slime-in-school-food/opinions?page=2&role=comments',{},function(data){console.log(data);});

您将看到数据回来