如何使用python标准库来抓取javascript网页

时间:2015-09-18 07:07:59

标签: javascript python

我必须抓一个使用javascript来显示内容的网站。我必须只使用标准的库,因为我将在没有任何浏览器的服务器上运行此脚本。我找到了selenium但它需要一个浏览器,在我的情况下无法安装。

任何想法或解决方案?

2 个答案:

答案 0 :(得分:2)

看一下Ghost.py http://jeanphix.me/Ghost.py/。它不需要浏览器。

pip install Ghost.py

from ghost import Ghost
ghost = Ghost()
page, resources = ghost.open('http://stackoverflow.com/')

答案 1 :(得分:1)

您没有提及网站如何使用javascript的任何内容,但如果它使用在任何类型的用户交互后触发的AJAX请求,您将需要使用像Selenium这样的内容来自动化该行为。在这里,您可以找到a short tutorial of how to scrape with Scrapy + Selenium。这当然需要先前安装在您机器上的浏览器。