我写了一个代码,通过使用mechanize提供搜索词从网站中提取信息。 结果有html标签和其他细节以及text.i需要只提取text.help我修改代码
import mechanize
br=mechanize.Browser()
br.set_handle_robots( False )
br.addheaders = [('User-agent', 'Firefox')]
r=br.open("http://www.drugs.com/search-wildcard-phonetic.html")
br.select_form(nr=0)
br.form['searchterm']='panadol'
br.submit()
print br.response().read()
答案 0 :(得分:0)
这似乎是同一个问题 Python code to remove HTML tags from a string指向Strip HTML from strings in Python
从该问题中复制最佳答案给出:
我总是使用此函数来去除HTML标记,因为它只需要Python stdlib:
from HTMLParser import HTMLParser
class MLStripper(HTMLParser):
def __init__(self):
self.reset()
self.fed = []
def handle_data(self, d):
self.fed.append(d)
def get_data(self):
return ''.join(self.fed)
def strip_tags(html):
s = MLStripper()
s.feed(html)
return s.get_data()