我试图通过多个数据帧运行一个函数,但是我遇到了问题。我的主要问题是: 1)我尝试使用zip(df1,df2,df3,...)运行定义的函数,并且输出为新的DF1,DF2,DF3,...;但是,我失败了。是否可以通过多个数据框运行一个函数,并且输出也是“ zip”格式的数据框?
2)如果不能选择zip(),如何使我的函数循环运行?目前,我只有三个数据框,可以轻松地分别完成。但是我想知道当我有50、100甚至更多的数据帧时如何处理它。
这是我的代码:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
#import scipy.stats as ss
# *********** 3 City Temperature files from NOAA ***********
# City 1
df1 = pd.pandas.read_csv('https://docs.google.com/spreadsheets/d/1Uj5N363dEVJZ9WVy2a_kkbJKJnyyE5qnEqOfzO0UCQE/gviz/tq?tqx=out:csv')
# City 2
df2 = pd.pandas.read_csv('https://docs.google.com/spreadsheets/d/13CgTdDCDzB_3WIYIRVMeLu6E36xzHSzRR5T_Ku0vThA/gviz/tq?tqx=out:csv')
# City 3
df3 = pd.pandas.read_csv('https://docs.google.com/spreadsheets/d/17pNZFIaV_NpQfSed-msIGu9jzzqF6JBvCZrBRiU2ZkQ/gviz/tq?tqx=out:csv')
def CleanDATA(data):
data = data.drop(columns=['Annual'])
data = data.drop(data.index[29:-1])
data = data.drop(data.index[-1])
monthname=[]
Temp=[]
for row in range(0,len(data)):
for col in range(1,13):
#monthname.append(str(col)+"-"+str(data['Year'][row]))
monthname.append(str(data['Year'][row])+str(col))
Temp.append(data.iloc[row,col])
df0=pd.DataFrame()
df0['Month']=monthname
df0['Temperature']=Temp
df0['Month']=pd.to_datetime(df0['Month'],format='%Y.0%m') #change the date form
df0['Month'] = pd.to_datetime(df0['Month']).dt.date # remove time, only keep date
data =df0[df0.applymap(np.isreal).all(1)] # remove non-numerical
return data
data1 = CleanDATA(df1)
data2 = CleanDATA(df2)
data3 = CleanDATA(df3)
此外,在阅读以下excel文件时,我发现Pandas存在问题: https://drive.google.com/file/d/1V9fKpACbLrSi0NfB0FHSgc96PQerKkUF/view?usp=sharing(这是1990-2019年的城市1的温度数据)
2019年仍在进行中,因此,NOAA站仅提供直到今年5月的信息。 Excel数据通过“ M”标记所有丢失的数据。我注意到,一旦该列带有“ M”,即使我已经删除了2019行,也无法直接使用boxplot。 Spyder控制台会说“项目[Jun to Dec]”丢失了(接线的事情是我可以使用相同的数据来绘制XY线图)。要绘制箱线图,我必须在excel中手动删除2019年信息(1行),而不是读取新文件。
答案 0 :(得分:0)
我会使用字典(或列表或其他可迭代的)来完成它。
cities = {'city1': 'https://...', 'city2': 'https://...', 'city3': 'https://...'}
df = {}
data = {}
for city, url in iteritems(cities):
df[city] = pd.pandas.read_csv(url)
data[city] = CleanDATA(df[city])