应用错误收集

我正在使用python 2.7（在Windows 7操作系统中）我只是尝试使用urllib函数读取网页并将其写入文件。以下是我的代码。

import urllib

html=urllib.urlopen("http://www.sciencedirect.com/science/article/pii/S027252311730076X").readlines()

print len(html)

g=open("D:\path\to\output\output.html",'w')

for i in html:

    g.write(i)
g.close()

但是当我在浏览器中比较上述链接的页面源（通过右键单击 - ＆gt;查看页面源）和我的输出html文件时，它们是不同的。我的output.html文件中缺少许多信息。这是为什么？以及如何获取原始页面源？因为我必须再写几个代码来从这个页面中提取一些特定的信息。

提前感谢您的帮助。

Python urllib函数读错页面

0 个答案: