我使用python的urllib.request API抓取了一些网页,并将读取的行保存到新文件中。
f = open(docId + ".html", "w+")
with urllib.request.urlopen('http://stackoverflow.com') as u:
s = u.read()
f.write(str(s))
但是当我打开保存的文件时,我会看到许多字符串,例如\ xe2 \ x86 \ x90,它原来是原始页面中的箭头符号。它似乎是符号的UTF-8代码,但是如何将代码转换回符号呢?
答案 0 :(得分:2)
您的代码已损坏:u.read()
返回bytes
个对象。 str(bytes_object)
返回对象的字符串表示(字节文字的外观如何) - 你不想在这里:
>>> str(b'\xe2\x86\x90')
"b'\\xe2\\x86\\x90'"
按原样保存磁盘上的字节:
import urllib.request
urllib.request.urlretrieve('http://stackoverflow.com', 'so.html')
或以二进制模式打开文件:'wb'
并手动保存:
import shutil
from urllib.request import urlopen
with urlopen('http://stackoverflow.com') as u, open('so.html', 'wb') as file:
shutil.copyfileobj(u, file)
或将字节转换为Unicode并使用您喜欢的任何编码将它们保存到磁盘。
import io
import shutil
from urllib.request import urlopen
with urlopen('http://stackoverflow.com') as u, \
open('so.html', 'w', encoding='utf-8', newline='') as file, \
io.TextIOWrapper(u, encoding=u.headers.get_content_charset('utf-8'), newline='') as t:
shutil.copyfileobj(t, file)
答案 1 :(得分:1)
尝试:
import urllib2, io
with io.open("test.html", "w", encoding='utf8') as fout:
s = urllib2.urlopen('http://stackoverflow.com').read()
s = s.decode('utf8', 'ignore') # or s.decode('utf8', 'replace')
fout.write(s)