我想要保存网页。我使用python urllib来解析网页。但是我
找到保存的文件,其中缺少某些内容。缺少的部分
是来自源网页的块,例如此部分<div
style="display: block;" id="GeneInts">...</div>
。
我不知道如何在没有阻塞的情况下解析整个页面。你可以帮帮我吗
想办法?谢谢!
这是我的程序
url = 'http://receptome.stanford.edu/hpmr/SearchDB/getGenePage.asp?Param=4502931&ProtId=1&ProtType=Receptor'
f = urllib.urlretrieve(url,'test.html')
答案 0 :(得分:5)
每当我需要让Javascript在页面上操作之前我才能抓住它,我首先要求的是SeleniumRC - 虽然它主要是为测试目的而设计的,但我从来没有找到更好的这项艰巨任务的工具。对于“从Python使用它”部分,请参阅here并从中链接。
答案 1 :(得分:0)
该页面通过在加载时执行的JavaScript生成大量内容,包括,我认为,您尝试提取的部分。您需要一个可以运行JavaScript然后保存修改后的DOM的屏幕抓取工具。我不知道你从哪里得到其中一个。