python html解析器哪个不修改实际的标记?

时间:2012-12-13 11:44:22

标签: python html parsing

我想在python中解析html代码并尝试过美丽的汤和pyquery。问题是那些解析器修改原始代码,例如插入一些标签等等。是否有任何解析器不会更改代码?


我试过HTMLParser但没有成功! :( 它不会修改代码,只是告诉我标记的位置。但它无法解析像mail.live.com这样的网页 知道如何像浏览器一样解析网页吗?

3 个答案:

答案 0 :(得分:1)

您可以使用BeautifulSoup仅提取文本而不修改标记。它在他们的文档中。

同样的问题: How to extract text from beautiful soup

答案 1 :(得分:0)

不,到目前为止还没有这样的HTML解析器,每个解析器都有自己的限制。

答案 2 :(得分:0)

您是否尝试过使用Python绑定的webkit引擎?

请参阅:https://github.com/niwibe/phantompy

您可以遍历已解析网页的真实DOM并执行您需要执行的操作。