从DOM解析HTML(非静态HTML)

时间:2012-12-16 01:33:48

标签: javascript html html-parsing beautifulsoup

尝试解析来自DOM的HTML数据,当我使用Chrome的开发人员工具时,我可以在控制台中看到该数据。当我在本地将页面保存为HTML并搜索目标数据时,无法找到它。我已经完成了一些关于静态HTML文件是如何被浏览器接收的文章,以及Javascript将如何以不同的方式呈现它以进行演示。

具体示例:Google“nba”,其结果包括页面顶部的一个表格,当天所有已安排的游戏都嵌套在<tbody>内,如果您保存此页面,则HTML文件不包含一个<tbody>标记。尝试使用BeautifulSoup4和Python解析这个游戏表。

1 个答案:

答案 0 :(得分:1)

要完全以编程方式执行此操作,您需要run a headless browser - 就像您的真实浏览器一样执行JavaScript。 Ghost.py可以让这更容易。

否则,您可以执行as millimoose suggests,并使用浏览器的内置开发人员工具将当前DOM状态保存为HTML。