删除python3中html中标记之间的换行符

时间:2017-02-17 03:00:05

标签: python python-3.x beautifulsoup html-parsing removing-whitespace

我想要修剪所有空白区域和新线条,然后从

转换结果
<title>

     Asian Case Research Journal (World Scientific)

</title>

到这个

<title>Asian Case Research Journal (World Scientific)</title>

我的代码:

for link in url_list:
    try:
    r = requests.get(link)
    soup = BeautifulSoup(r.content,"html.parser")
    print(soup.title)
except:
    print("No Title Found ")
    continue

3 个答案:

答案 0 :(得分:2)

import bs4

html = '''<title>

     Asian Case Research Journal (World Scientific)

</title>'''
soup = bs4.BeautifulSoup(html, 'lxml')
title = soup.title
title.string = title.get_text(strip=True)
print(str(title))

出:

<title>Asian Case Research Journal (World Scientific)</title>

在bs4中,tag是一个具有string属性的Object,您可以使用.表示法访问或修改它,并使用str(tag)

将标记对象转换为python str对象

文件:modifying-string

答案 1 :(得分:0)

尝试此操作并根据您的用例进行修改。

desired_string = ''.join([x.strip() for x in str(soup.title).split('\r\n')])

答案 2 :(得分:0)

soup.title.text.strip()应该这样做