如何保存整个网页中的内容

时间:2010-08-11 02:15:21

标签: python

我想要保存网页。我使用python urllib来解析网页。但是我 找到保存的文件,其中缺少某些内容。缺少的部分 是来自源网页的块,例如此部分<div style="display: block;" id="GeneInts">...</div>。 我不知道如何在没有阻塞的情况下解析整个页面。你可以帮帮我吗 想办法?谢谢!

这是我的程序

url = 'http://receptome.stanford.edu/hpmr/SearchDB/getGenePage.asp?Param=4502931&ProtId=1&ProtType=Receptor'
f = urllib.urlretrieve(url,'test.html') 

2 个答案:

答案 0 :(得分:5)

每当我需要让Javascript在页面上操作之前我才能抓住它,我首先要求的是SeleniumRC - 虽然它主要是为测试目的而设计的,但我从来没有找到更好的这项艰巨任务的工具。对于“从Python使用它”部分,请参阅here并从中链接。

答案 1 :(得分:0)

该页面通过在加载时执行的JavaScript生成大量内容,包括,我认为,您尝试提取的部分。您需要一个可以运行JavaScript然后保存修改后的DOM的屏幕抓取工具。我不知道你从哪里得到其中一个。