标签: html python-2.7 web-scraping
我正在通过网络获取这样的网页
import requests html = requests.get("http://www.google.com/")
这会在html变量中返回大量垃圾我想要的是我只想要在网络浏览器中显示的数据,而不是其他无用的数据,例如html标记head ,link,meta,script和其他无用的标签及其内容。我尝试使用HTMLParser模块执行此操作,但它只是从中删除标记。任何想法我应该如何实现这一目标?
html
head
link
meta
script
HTMLParser