使用Selenium和Python提取网站文本

时间:2017-11-01 11:54:29

标签: selenium web-scraping phantomjs

我想提取特定网页中的所有文字。

在JavaScript中,代码如下所示:

var webPage = require('webpage');
var page = webPage.create();

page.open('http://phantomjs.org', function (status) {
  console.log('Stripped down page text:\n' + page.plainText);
  phantom.exit();
});

如何在Python中运行page.plainText?

感谢。

2 个答案:

答案 0 :(得分:4)

如果你想用Selenium做到这一点,你必须在调用getText()之后选择“top”元素。

例如,在Python中:

driver = webdriver.PhantomJS(executable_path=r'pathTo/phantomjs')
driver.get("https://en.wikipedia.org/wiki/Selenium_(software)")
el=driver.find_element_by_tag_name("body")
print(el.text)
driver.close()

答案 1 :(得分:1)

试试这段代码:

text = driver.find_element_by_tag_name("body").get_attribute("innerText")