我正在尝试使用python从某些网页收集一些数据(他们没有API)。我以前从未这样做过。
我认为它的ASP.NET(我知之甚少)或者他们正在使用的一些带有表单助手的库使得通过仅使用urllib发送相同的postdata来“手动”重新创建请求变得非常复杂。他们期望有各种奇怪的人类不友好的后期数据 - 上帝知道他们的意思(以及开发人员)。
我尝试删除这些,但只保留基本数据,但这会破坏请求。例如,当我在分页中更改页面时,某些“hash-ish”字符串也会发生变化(没有简单的页面= x查询字符串就足够了)。
因此,花费数小时试图弄清楚一切是如何运作的,我认为有一些图书馆可以帮助我。使用像浏览器这样的界面,我可以开始给它一个网址并说出要填写的表格,链接到goto,它会自动处理cookie,隐藏的输入等,然后给我输出html。
我希望你明白我在寻找什么。也许它不存在,但我觉得它会有用,所以它应该存在。
解决此问题的其他方法也很有用。
由于