将原始html解析为有意义的东西

时间:2017-02-07 20:29:09

标签: html python-2.7 web-scraping

我正在通过网络获取这样的网页

import requests

html = requests.get("http://www.google.com/")

这会在html变量中返回大量垃圾我想要的是我只想要在网络浏览器中显示的数据,而不是其他无用的数据,例如html标记headlinkmetascript和其他无用的标签及其内容。我尝试使用HTMLParser模块执行此操作,但它只是从中删除标记。任何想法我应该如何实现这一目标?

0 个答案:

没有答案