我正在Linux上寻找一种方法来编写一个脚本,该脚本从Javascript生成的页面中抓取文本(特别是etherpad,例如http://www.board.net)。理想情况下,我想使用现有工具,但我找不到合适的工具(例如lynx,但它不支持javascript或Selenium,但它在浏览器中运行)。建议欢迎。
如果没有合适的东西(这对于这样一个简单的需求而言似乎令人惊讶),也许我可以用Python自己写一些东西。对于类似的东西,有哪些有用的Python类?
答案 0 :(得分:1)
一种选择仍然坚持Selenium,但使用无头PhantomJS。
另见:
示例(使用firefox webdriver):
from selenium import webdriver
url = 'http://board.net/p/ThisIsBob%27sBoard/timeslider'
driver = webdriver.Firefox()
driver.get(url)
element = driver.find_element_by_id('padcontent')
print element.text
打印:
Here is some text I'd like to scrape
I wonder how to go about it?