我从没有所有标签的html页面中提取文本(使用Python和BeautifulSoup)。但是,标签不会替换为空白。因此,例如,对于" blah blahDIVTAGblah"我得到以下文字" blah blahblah"。如何在第二个和第三个之间插入空格?我使用以下代码。
# kill all script and style elements
for script in soup(["script", "style"]):
script.extract()
答案 0 :(得分:1)
您可以使用.replace_with()
for script in soup(["script", "style"]):
script.replace_with(" ")