通过发布表单从网站收集数据

时间:2013-01-19 23:54:40

标签: python post httpwebrequest urllib

我正在尝试使用python从某些网页收集一些数据(他们没有API)。我以前从未这样做过。

我认为它的ASP.NET(我知之甚少)或者他们正在使用的一些带有表单助手的库使得通过仅使用urllib发送相同的postdata来“手动”重新创建请求变得非常复杂。他们期望有各种奇怪的人类不友好的后期数据 - 上帝知道他们的意思(以及开发人员)。

我尝试删除这些,但只保留基本数据,但这会破坏请求。例如,当我在分页中更改页面时,某些“hash-ish”字符串也会发生变化(没有简单的页面= x查询字符串就足够了)。

因此,花费数小时试图弄清楚一切是如何运作的,我认为有一些图书馆可以帮助我。使用像浏览器这样的界面,我可以开始给它一个网址并说出要填写的表格,链接到goto,它会自动处理cookie,隐藏的输入等,然后给我输出html。

我希望你明白我在寻找什么。也许它不存在,但我觉得它会有用,所以它应该存在。

解决此问题的其他方法也很有用。

由于

2 个答案:

答案 0 :(得分:1)

答案 1 :(得分:1)

如果您需要类似浏览器的行为,请查看Selenium WebDriver或类似ghost.py的项目。