Question

我想要保存网页。我使用python urllib来解析网页。但是我找到保存的文件，其中缺少某些内容。缺少的部分是来自源网页的块，例如此部分<div style="display: block;" id="GeneInts">...</div>。我不知道如何在没有阻塞的情况下解析整个页面。你可以帮帮我吗想办法？谢谢！

这是我的程序

url = 'http://receptome.stanford.edu/hpmr/SearchDB/getGenePage.asp?Param=4502931&ProtId=1&ProtType=Receptor'
f = urllib.urlretrieve(url,'test.html')

Answer 1

每当我需要让Javascript在页面上操作之前我才能抓住它，我首先要求的是SeleniumRC - 虽然它主要是为测试目的而设计的，但我从来没有找到更好的这项艰巨任务的工具。对于“从Python使用它”部分，请参阅here并从中链接。

Answer 2

该页面通过在加载时执行的JavaScript生成大量内容，包括，我认为，您尝试提取的部分。您需要一个可以运行JavaScript然后保存修改后的DOM的屏幕抓取工具。我不知道你从哪里得到其中一个。

如何保存整个网页中的内容

2 个答案: