Beautifulsoup无法获得理想的结果

时间:2019-11-12 02:03:19

标签: python beautifulsoup

我正在尝试从此维基百科页面https://en.wikipedia.org/wiki/List_of_aircraft_accidents_and_incidents_resulting_in_at_least_50_fatalities上的表格中获取有关飞机事故的数据。

到目前为止,这是我的代码,它可以正常工作,但不是100%。数据仍然很脏。有人可以帮我清理它并使它成为纯csv柱吗?

我已经尝试了几个小时,但到目前为止还没有运气。 任何帮助将不胜感激。

已尝试使用不同的标签。

import requests
from bs4 import BeautifulSoup

#get request
r = requests.get('https://en.wikipedia.org/wiki/List_of_aircraft_accidents_and_incidents_resulting_in_at_least_50_fatalities')
src = r.content
soup = BeautifulSoup(src, 'lxml')

#find table
stat_table = soup.findAll('tbody')
stat_table2 = stat_table[3]

with open('aircraftcrashes.csv', 'w', newline='') as f:
    writer = csv.writer(f)
    for tr in stat_table2('tr'):
        row = [t.get_text(strip=True) for t in tr(['td', 'th'])]
        writer.writerow(row)

我希望结果作为表格,但在CSV列中。两者之间只是逗号。

0 个答案:

没有答案