Question

我制作了一个从网站中提取信息的程序。它的工作原理如下：

for row in table.findAll('td'):
    topas = row.find('p')
    pastoo = row.find('ul')
    if topas:
        continue
    elif pastoo:
        continue
    else:
        input = row.get_text()
        input.strip()
        file.write(input)
        file.write("~") #adding separator

当.html文件格式良好时，它可以正常工作，如下所示：

<table class="responsiveTable">
    <tbody>
        <tr><td>Country:</td><td>Belgium</td></tr>
        <tr><td>Year:</td><td>various years</td></tr>
    </tbody>
</table>

但是，在某些.html文件中，事情非常混乱，如下所示：

<table class="responsiveTable">
<tbody><tr><td>Country:</td><td>Indonesia</td></tr>
**<tr><td>Year:</td><td>2017 (Jan 27th)             
</td></tr>**
</tbody></table>

如您所见，代码的第4行产生了不必要的换行符。我试图使用.strip（）删除它，但它不起作用。有没有强大的功能可以消除换行？谢谢！！

关于从网站提取数据（Python）

0 个答案: