有没有办法从Python中的浏览器中获取当前的HTML?

时间:2015-04-19 17:58:23

标签: javascript python html web-scraping

我目前正在制作一个HTML演示文稿,它运行良好,但我需要与一个读取特殊html标签的NAO机器人同时进行演示。我不知何故需要告诉他,我正在使用哪张幻灯片,以便他可以选择正确的标签。

我使用Beautiful Soup来抓取HTML,但它是通过文件而不是浏览器来实现的。问题是,javascript正在运行,为特定幻灯片分配各种类,告诉演示文稿的当前状态。我需要能够访问它们,但是在演示文稿的默认状态下它们不存在并且在演示过程中异步添加。

希望我的要求很清楚。 谢谢你的时间

2 个答案:

答案 0 :(得分:1)

http://www.seleniumhq.org/(可能是webdriver)是你的朋友。初始化浏览器并调用browser.html以使文档处于当前状态。

答案 1 :(得分:0)

机器人上有wget,你可以使用它......(虽然我不确定我知道问题出在哪里......)