在python中使用JavaScript函数抓取页面的问题

时间:2012-12-12 02:11:38

标签: javascript python beautifulsoup mechanize

我遇到了python问题,请看。

我必须废弃一个具有JS功能的页面,但这不是真正的问题,真正的问题是我需要的信息是由函数提供的。所以我需要运行该函数以确保它构建我需要的HTML代码,然后处理它以获得我想要的东西..

为了确保我清楚,JS函数构建HTML代码,但是当我废弃它时,它不会获得HTML buid,它只返回JS函数...

我正在使用mechanize和beautifulSoup进行抓取过程..有谁知道我需要做些什么才能模拟JS函数来获取我需要的HTML代码?

提前致谢。

1 个答案:

答案 0 :(得分:0)

您需要一个支持javascript的报废框架。 Selenium就是其中之一,我和BeautifulSoup一起使用效果很好。

如果您要使用PyVirtualDisplay,则可能需要检查Selenium with Mozilla Firefox