我制作了一个从网站中提取信息的程序。它的工作原理如下:
for row in table.findAll('td'):
topas = row.find('p')
pastoo = row.find('ul')
if topas:
continue
elif pastoo:
continue
else:
input = row.get_text()
input.strip()
file.write(input)
file.write("~") #adding separator
当.html文件格式良好时,它可以正常工作,如下所示:
<table class="responsiveTable">
<tbody>
<tr><td>Country:</td><td>Belgium</td></tr>
<tr><td>Year:</td><td>various years</td></tr>
</tbody>
</table>
但是,在某些.html文件中,事情非常混乱,如下所示:
<table class="responsiveTable">
<tbody><tr><td>Country:</td><td>Indonesia</td></tr>
**<tr><td>Year:</td><td>2017 (Jan 27th)
</td></tr>**
</tbody></table>
如您所见,代码的第4行产生了不必要的换行符。我试图使用.strip()删除它,但它不起作用。有没有强大的功能可以消除换行?谢谢!!