假设有一个网页,其中包含用于查询庞大数据库的表单。每次我查找一些数据时,我都必须输入字段值,提交表单,然后等待返回的列表。我想自动执行此过程,因为我查找单个数据集,并希望查看它何时出现在数据库中。为此,我编写了一个Python cgi脚本来拉取页面,使用GET参数填充表单并提交它。一切都很好,结果出现了。接下来,我想将返回的值保存在文件中。使用cron作业,我可以监视此文件以查看它何时发生更改。 但是,我的脚本不保存返回的列表,它保存填充的表单。
我试过了:
lynx -dump
curl
wget -E -H -k -p
所有这些都保存填充的表单,而不是等待返回的值。运行查询需要几秒钟,但我不认为这是问题所在。我确信我会错过一些基本的东西,比如设置html标题,这就是为什么Python的urllib2认为页面已加载。但我没有那些经验。