作为我工作的工具,我正在尝试编写代码,以从联机目录中抓取信息。为了测试它,我正在使用大学运动系。我想将它们放入DataFrame中,然后以正确的格式将该DataFrame添加到csv中。
目前,我可以将所有信息正确地格式化为不同的单元格,而将信息从一个url写入.csv。但是,当我尝试写多个时,会写.csv以便写每个单独的数据帧,以便所有信息都写在单个单元格中。
这是我的代码:
urls = ["https://webberathletics.com/staff.aspx",
"https://fordhamsports.com/staff.aspx"]
appended_data = []
for url in urls:
driver = webdriver.Chrome(r'C:\Users\webdrivers\chromedriver.exe')
driver.implicitly_wait(30)
driver.get(url)
tables = pd.read_html(driver.page_source)
df = tables
appended_data.append(df)
driver.close()
print("Finished "+ url)
dfs = pd.DataFrame(appended_data)
dfs.to_csv(r'C:\Users\Documents\test.csv')
当我仅在for循环中打印数据帧时,它会同时包含两个网址中的所有数据
tables = pd.read_html(driver.page_source)
df = tables
print(df)
appended_data.append(df)
但是,当我运行整个代码时,这就是我的csv的样子。
0 1
0 0
1
所有信息都存储在1,0
和0,1
单元格中