我有以下代码:
html = urlopen(req).read()
soup = BeautifulSoup(html, "lxml")
# remove all script and style elements
for script in soup(["script", "style"]):
script.extract()
# get text
text = soup.get_text()
问题是,如果在我的html页面中,我有类似
Oxford<br />Laboratory
,以及
删除样式后,我得到OxfordLaboratory
这是我的问题:如何在所有<
之前添加一个空格,以使单词不合并?
答案 0 :(得分:2)