BeautifulSoup获取innerhtml数据

时间:2010-07-08 08:28:17

标签: javascript python urllib2 beautifulsoup innerhtml

我正在尝试从网站上读取数据。我可以看到我需要的值,但该值不会出现在下载的html代码中(使用urllib2)。该值由一些js文件创建,并作为该id的innerhtml嵌入到网页中。 PS:如何提取?与浏览器不同,原始源代码无法呈现js!

2 个答案:

答案 0 :(得分:4)

另一种获取数据的方法是让浏览器使用Selenium完成所有操作并读取渲染的html。有点慢但确实有效。

在这里,您可以找到使用Selenium和Python的入门指南: http://jimmyg.org/blog/2009/getting-started-with-selenium-and-python.html

答案 1 :(得分:1)

您有两种选择:让浏览器保存DOM(这包括脚本所做的所有更改)或使用JavaScript引擎执行嵌入式脚本。

对于后一种方式,请尝试使用基于Java的引擎,例如Rhino,并使用env.js模拟浏览器。

相关问题