Python的新手,所以我确定这个问题的答案很明显,但我找不到。
我正在写一个网络爬虫。当我实时阅读文件时,我得到了完美的HTML,如下所示:
user_agent = 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.7) Gecko/2009021910 Firefox/3.0.7'
headers={'User-Agent':user_agent,}
request=urllib.request.Request(URL,None,headers)
response = urllib.request.urlopen(request)
page_data = response.read()
但是,如果我在本地保存该HTML并尝试使用file.open打开它,则会返回 <_ io.TextIOWrapper name ='metacritic_main_html / 0.html'mode ='r'encoding ='US-ASCII '> 而不是HTML。我已经检查了文件本身,并且HTML完好无损,这使我在回读文件时做一些愚蠢的事情。
这是代码:
files = os.listdir(file_dir)
for f in files:
file_loc = file_dir + f
print(file_loc)
with open(file_loc) as html:
print(html)
最后一条打印语句的输出为<_io.TextIOWrapper name ='metacritic_main_html / 0.html'mode ='r'encoding ='US-ASCII'> ,而不是我期望的HTML。
我想念什么?在路径更明确之前,我已经成功打开了文件。