如何使用python,beautifulsoup打印html而不会中断?

时间:2017-10-28 02:23:16

标签: python beautifulsoup

即时尝试使用beautifulsoup打印html:

load = urllib2.urlopen(url)
soup = BeautifulSoup(load, 'lxml')
characteristics = soup.find('table', { 'class' : 'characteristics-table'})
print characteristics

得到这个:

<table class="characteristics-table">
<tr class="characteristics alt">
<td class="name">
Zīmols
</td>
<td>
Emporio Armani</td>
</tr>
<tr class="characteristics">
<td class="name">
<b>Mehānisma tips</b>
</td>
<td>
<b>Mehāniskie automātiskie</b></td>
</tr>...

但是需要这样的东西:

<table class="characteristics-table"><tr class="characteristics alt"><td class="name">Zīmols</td><td>...

怎么做?

2 个答案:

答案 0 :(得分:2)

如果您只想删除characteristics中的换行符,请使用str.replace删除它们,方法是将换行符替换为空字符串''

print str(characteristics).replace('\n', '').replace('\r\n', '')

第一个替换unix样式的换行符,第二个替换为第一个换行符的结果,替换了windows样式的换行符。

编辑:.replace必须从beautifulsoup的查找中应用于返回的obj的str()

答案 1 :(得分:1)

''.join(characteristics.split('\n'))   #or \r\n on Windows