剥离html标签并在python中使用mechanize返回文本

时间:2014-02-23 17:23:48

标签: python web-scraping mechanize

我写了一个代码,通过使用mechanize提供搜索词从网站中提取信息。 结果有html标签和其他细节以及text.i需要只提取text.help我修改代码

import mechanize
br=mechanize.Browser()
br.set_handle_robots( False )
br.addheaders = [('User-agent', 'Firefox')]
r=br.open("http://www.drugs.com/search-wildcard-phonetic.html")
br.select_form(nr=0)
br.form['searchterm']='panadol'
br.submit()
print br.response().read()

1 个答案:

答案 0 :(得分:0)

这似乎是同一个问题 Python code to remove HTML tags from a string指向Strip HTML from strings in Python

从该问题中复制最佳答案给出:

我总是使用此函数来去除HTML标记,因为它只需要Python stdlib:

from HTMLParser import HTMLParser

class MLStripper(HTMLParser):
  def __init__(self):
    self.reset()
    self.fed = []
  def handle_data(self, d):
    self.fed.append(d)
  def get_data(self):
    return ''.join(self.fed)

def strip_tags(html):
  s = MLStripper()
  s.feed(html)
  return s.get_data()