我想在python中解析html代码并尝试过美丽的汤和pyquery。问题是那些解析器修改原始代码,例如插入一些标签等等。是否有任何解析器不会更改代码?
我试过HTMLParser
但没有成功! :(
它不会修改代码,只是告诉我标记的位置。但它无法解析像mail.live.com这样的网页
知道如何像浏览器一样解析网页吗?
答案 0 :(得分:1)
您可以使用BeautifulSoup仅提取文本而不修改标记。它在他们的文档中。
答案 1 :(得分:0)
不,到目前为止还没有这样的HTML解析器,每个解析器都有自己的限制。
答案 2 :(得分:0)