如何在beatifulsoup中的标签之前添加空间

时间:2018-07-12 12:43:32

标签: python beautifulsoup

我有以下代码:

html = urlopen(req).read()
soup = BeautifulSoup(html, "lxml")
# remove all script and style elements
for script in soup(["script", "style"]):
    script.extract()
# get text
text = soup.get_text()

问题是,如果在我的html页面中,我有类似 Oxford<br />Laboratory,以及 删除样式后,我得到OxfordLaboratory

这是我的问题:如何在所有<之前添加一个空格,以使单词不合并?

1 个答案:

答案 0 :(得分:2)

documentation指出:

  

您可以指定一个用于将文本位连接在一起的字符串:

# soup.get_text("|")

在您的情况下,您需要一个空格(" ")作为分隔符。