我编写了以下快速示例来学习一些请求和Beautifulsoup的基础知识。
import requests
from bs4 import BeautifulSoup
requests
url = 'http://www.tagesschau.de'
r = requests.get(url)
r_html = r.text
soup = BeautifulSoup(r_html, 'html.parser')
soup_prettified = soup.prettify()
with open('text_test_1.html','w') as open_file:
open_file.write(soup_prettified.encode('ascii', 'replace'))
一切正常,但是当我打开HTML时,它确实看起来不像原始网页。它更像是一个链接列表。这是为什么?我怎么能真正喜欢原始网页的图片?
这与标记为重复的问题不同,因为我不想只保存HTML。