我如何使用Python下载网页,以便我可以离线查看网页以及筛选html
代码以获取信息?
就像点击右键并点击任意网页上的Save-As
一样。
答案 0 :(得分:0)
您一定要查看Requests和Beautiful Soup。
简单示例将是这样的(注意:您必须首先使用pip python -m pip install <library>
安装这两个库):
import requests
from bs4 import BeatifulSoup
res = requests.get('www.example.com')
soup = BeautifulSoup(res.text, 'html.parser')
print(soup.prettify())
最后一行将打印出网站的整个html,但它也会以可读的形式对其进行格式化,就像通过检查网站上的元素来查看html一样。
如果您想下载页面并将其放在单独的html文件中,您可以这样做:
with open('example.html', 'w', encoding = 'utf8') as webSite:
webSite.write(soup.prettify())
webSite.close()