如何使用beautifulsoup4从html数据中删除h2标签?

时间:2015-02-09 22:21:07

标签: python beautifulsoup

我想在删除应用以下脚本后删除h2标记。我一直在使用beautifulsoup从网站上获取数据。

url = 'http://diningdelights.in/Normal-mum.aspx'
br = mechanize.Browser()
br.open(url)

def select_form(form):
    return form.attrs.get('id', None) == 'form1'
br.select_form(predicate=select_form)
br.form.set_all_readonly(False)
br.form["hdnPageSearch"]='3'
br.submit()

soup = BeautifulSoup(br.response().read())

for g_data in soup.find_all("div", class_="innerContainer"):
    h2_data=g_data.find_all("h2")
    print h2_data

我只是在h2中获取数据。例如。

<h2> Evergreen </h2>, <h2> Evergreen</h2>

有人可以帮我删除以下标记。

1 个答案:

答案 0 :(得分:0)

您正在打印元素;如果你想要 in 元素,那么检索它。例如,使用.string attribute

print h2_data.string

您可以使用CSS selector

简化搜索
for h2_data in soup.select("div.innerContainer h2"):
    print h2_data.string