使用POSTing表单在python中爬网站点 - 使用哪个工具

时间:2013-10-13 22:23:50

标签: python selenium web-crawler

有一个网站有一个表格。我想自动化一个进程,我在表单中输入一些值并检查结果。我想扫描很多表单组合(这就是为什么我不想手动执行此操作)。不幸的是,由于使用了大量的cookie,我无法使用cURL自动化它。

我想也许我可以使用真正的浏览器为我做一些自动化操作?我在考虑使用phantomjs和selenium(到目前为止还没有使用过硒)。硒是否运行真正的浏览器?这样会很好,因为真正的浏览器会处理所有的cookie。

简而言之:我会有一堆用于填充网站表单的python词典。填写表单后,我想扫描HTML以检索结果。之后,我将总结一切(这一步很简单)。硒能满足我的需求吗?你能推荐更好的东西吗?

1 个答案:

答案 0 :(得分:2)

是的selenium是一个浏览器模拟器,它在您运行时打开一个实际的浏览器窗口

phantom-js是selenium的无头网络工具包,它将在后台运行浏览器而不显示实际的浏览器窗口

如果你不能使用,urllib,请求或机械化然后是你最好的镜头是使用硒

对于HTML解析我推荐BeautifulSoup它非常易于使用,并且可以获得您需要的所有信息