选择一个Python Web抓取框架来处理纯Javascript网站

时间:2011-06-12 11:32:58

标签: python selenium web-scraping selenium-webdriver windmill

我是一名专注于网络抓取的Python程序员,我不得不问这个问题,因为我发现没什么相关的。

我想知道哪些流行的,文档齐全的框架可用于Python来抓取基于Javascript的纯网站?目前我知道机械化和美丽的汤,但他们不与Javascript互动所以我正在寻找不同的东西。我更喜欢像机械一样优雅和简单的东西。

我做了一些研究,到目前为止我听说过Selenium,Selenium 2和Windmill。

现在我正在尝试从这三个中选择一个,我不知道其他任何一个。

那么有人能指出这些框架的特征以及它们与众不同的原因吗?我听说Selenium使用一个单独的服务器来完成它的所有任务,它似乎功能丰富。另外Selenium和Selenium2的核心区别是什么?如果我错了,请告诉我,如果你知道任何其他框架,请提及它的功能和其他细节。

感谢。

1 个答案:

答案 0 :(得分:0)

在使用Selenium等专为前端测试而非抓取的工具之前,您应该先了解网站上的数据来自何处。找出XHR请求是什么,它们采取什么参数以及结果是什么。

例如,您在评论中提到的网站会在JavaScript中发出包含大量参数的POST请求并显示结果。您可能只需要使用此POST请求的结果来获取数据。