在没有urllib或json的情况下从站点获取信息

时间:2016-06-13 12:49:56

标签: python html

我想以某种复制/粘贴格式从页面获取所有信息,但由于安全限制,我无法使用网站上的urllib或json信息。我想知道python是否有办法打开网页并复制实际页面本身,而不是从API中检索html代码或JSON?

2 个答案:

答案 0 :(得分:1)

您可以通过selenium真实浏览器中加载网页,然后获取.page_source

from selenium import webdriver

driver = webdriver.Firefox()
driver.get("url")

print(driver.page_source)

答案 1 :(得分:1)

取决于......你想只使用标准的python吗?如果是,那么:

  • 如果您使用的是Windows,则可以使用bitsadmin

  • 下载该页面 在linux或mac上
  • ,您可以使用curl

    curl http://www.centos.org > centos-org.html

subprocess.check_output()

一起

否则,selenium这样的包作为另一个答案提及。