在Python下载网站

时间:2018-03-13 21:29:45

标签: python html

我如何使用Python下载网页,以便我可以离线查看网页以及筛选html代码以获取信息?

就像点击右键并点击任意网页上的Save-As一样。

1 个答案:

答案 0 :(得分:0)

您一定要查看RequestsBeautiful Soup

简单示例将是这样的(注意:您必须首先使用pip python -m pip install <library>安装这两个库):

import requests
from bs4 import BeatifulSoup

res = requests.get('www.example.com')
soup = BeautifulSoup(res.text, 'html.parser')


print(soup.prettify())

最后一行将打印出网站的整个html,但它也会以可读的形式对其进行格式化,就像通过检查网站上的元素来查看html一样。

如果您想下载页面并将其放在单独的html文件中,您可以这样做:

with open('example.html', 'w', encoding = 'utf8') as webSite:
    webSite.write(soup.prettify())

webSite.close()