关于从网站提取数据(Python)

时间:2017-07-17 13:18:46

标签: python

我制作了一个从网站中提取信息的程序。它的工作原理如下:

for row in table.findAll('td'):
    topas = row.find('p')
    pastoo = row.find('ul')
    if topas:
        continue
    elif pastoo:
        continue
    else:
        input = row.get_text()
        input.strip()
        file.write(input)
        file.write("~") #adding separator

当.html文件格式良好时,它可以正常工作,如下所示:

<table class="responsiveTable">
    <tbody>
        <tr><td>Country:</td><td>Belgium</td></tr>
        <tr><td>Year:</td><td>various years</td></tr>
    </tbody>
</table>

但是,在某些.html文件中,事情非常混乱,如下所示:

<table class="responsiveTable">
<tbody><tr><td>Country:</td><td>Indonesia</td></tr>
**<tr><td>Year:</td><td>2017 (Jan 27th)             
</td></tr>**
</tbody></table>

如您所见,代码的第4行产生了不必要的换行符。我试图使用.strip()删除它,但它不起作用。有没有强大的功能可以消除换行?谢谢!!

0 个答案:

没有答案