我正在使用python 2.7(在Windows 7操作系统中)我只是尝试使用urllib函数读取网页并将其写入文件。以下是我的代码。
import urllib
html=urllib.urlopen("http://www.sciencedirect.com/science/article/pii/S027252311730076X").readlines()
print len(html)
g=open("D:\path\to\output\output.html",'w')
for i in html:
g.write(i)
g.close()
但是当我在浏览器中比较上述链接的页面源(通过右键单击 - >查看页面源)和我的输出html文件时,它们是不同的。我的output.html文件中缺少许多信息。这是为什么?以及如何获取原始页面源?因为我必须再写几个代码来从这个页面中提取一些特定的信息。
提前感谢您的帮助。