如何使用python从javascript生成的页面中抓取文本?

时间:2014-04-17 15:17:53

标签: javascript python linux selenium

我正在Linux上寻找一种方法来编写一个脚本,该脚本从Javascript生成的页面中抓取文本(特别是etherpad,例如http://www.board.net)。理想情况下,我想使用现有工具,但我找不到合适的工具(例如lynx,但它不支持javascript或Selenium,但它在浏览器中运行)。建议欢迎。

如果没有合适的东西(这对于这样一个简单的需求而言似乎令人惊讶),也许我可以用Python自己写一些东西。对于类似的东西,有哪些有用的Python类?

1 个答案:

答案 0 :(得分:1)

一种选择仍然坚持Selenium,但使用无头PhantomJS

另见:

示例(使用firefox webdriver):

from selenium import webdriver

url = 'http://board.net/p/ThisIsBob%27sBoard/timeslider'
driver = webdriver.Firefox()
driver.get(url)

element = driver.find_element_by_id('padcontent')
print element.text

打印:

Here is some text I'd like to scrape
 I wonder how to go about it?