Question

我正在Linux上寻找一种方法来编写一个脚本，该脚本从Javascript生成的页面中抓取文本（特别是etherpad，例如http://www.board.net）。理想情况下，我想使用现有工具，但我找不到合适的工具（例如lynx，但它不支持javascript或Selenium，但它在浏览器中运行）。建议欢迎。

如果没有合适的东西（这对于这样一个简单的需求而言似乎令人惊讶），也许我可以用Python自己写一些东西。对于类似的东西，有哪些有用的Python类？

Answer 1

一种选择仍然坚持Selenium，但使用无头PhantomJS。

另见：

Headless Selenium Testing with Python and PhantomJS

示例（使用firefox webdriver）：

from selenium import webdriver

url = 'http://board.net/p/ThisIsBob%27sBoard/timeslider'
driver = webdriver.Firefox()
driver.get(url)

element = driver.find_element_by_id('padcontent')
print element.text

打印：

Here is some text I'd like to scrape
 I wonder how to go about it?

如何使用python从javascript生成的页面中抓取文本？

1 个答案: