Question

我有以下代码：

html = urlopen(req).read()
soup = BeautifulSoup(html, "lxml")
# remove all script and style elements
for script in soup(["script", "style"]):
    script.extract()
# get text
text = soup.get_text()

问题是，如果在我的html页面中，我有类似 Oxford<br />Laboratory，以及删除样式后，我得到OxfordLaboratory

这是我的问题：如何在所有<之前添加一个空格，以使单词不合并？

Answer 1

documentation指出：

您可以指定一个用于将文本位连接在一起的字符串：
# soup.get_text("|")

在您的情况下，您需要一个空格（" "）作为分隔符。

如何在beatifulsoup中的标签之前添加空间

1 个答案: