Question

我想将网页（所有内容）保存为文本文件。（好像你右键点击了网页 - ＆gt;“将页面另存为” - ＆gt;“另存为文本文件”而不是html文件）

我尝试使用以下代码：

import urllib2
url=''
page = urllib2.urlopen(url)
page_content = page.read()
file = open('file_text.txt', 'w')
f.write(page_content)
f.close()

我的目标是能够在没有HTML代码的情况下保存整个文本。（例如，我想读“è”而不是“＆amp; eacute”）

Answer 1

如上所述html2text

，请查看elsewhere

import urllib2
import html2text
url=''
page = urllib2.urlopen(url)
html_content = page.read()
rendered_content = html2text.html2text(html_content)
file = open('file_text.txt', 'w')
file.write(rendered_content)
file.close()

如何将网页保存为文本文件[Python]

1 个答案: