我必须抓一个使用javascript来显示内容的网站。我必须只使用标准的库,因为我将在没有任何浏览器的服务器上运行此脚本。我找到了selenium但它需要一个浏览器,在我的情况下无法安装。
任何想法或解决方案?
答案 0 :(得分:2)
看一下Ghost.py http://jeanphix.me/Ghost.py/。它不需要浏览器。
pip install Ghost.py
from ghost import Ghost
ghost = Ghost()
page, resources = ghost.open('http://stackoverflow.com/')
答案 1 :(得分:1)
您没有提及网站如何使用javascript的任何内容,但如果它使用在任何类型的用户交互后触发的AJAX请求,您将需要使用像Selenium这样的内容来自动化该行为。在这里,您可以找到a short tutorial of how to scrape with Scrapy + Selenium。这当然需要先前安装在您机器上的浏览器。