使用功能循环多个数据框

时间:2019-06-20 15:15:31

标签: python pandas dataframe

我试图通过多个数据帧运行一个函数,但是我遇到了问题。我的主要问题是: 1)我尝试使用zip(df1,df2,df3,...)运行定义的函数,并且输出为新的DF1,DF2,DF3,...;但是,我失败了。是否可以通过多个数据框运行一个函数,并且输出也是“ zip”格式的数据框?

2)如果不能选择zip(),如何使我的函数循环运行?目前,我只有三个数据框,可以轻松地分别完成。但是我想知道当我有50、100甚至更多的数据帧时如何处理它。

这是我的代码:

import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt 
import seaborn as sns  
#import scipy.stats as ss

# *********** 3 City Temperature files from NOAA ***********
# City 1
df1 = pd.pandas.read_csv('https://docs.google.com/spreadsheets/d/1Uj5N363dEVJZ9WVy2a_kkbJKJnyyE5qnEqOfzO0UCQE/gviz/tq?tqx=out:csv')
# City 2
df2 = pd.pandas.read_csv('https://docs.google.com/spreadsheets/d/13CgTdDCDzB_3WIYIRVMeLu6E36xzHSzRR5T_Ku0vThA/gviz/tq?tqx=out:csv')
# City 3
df3 = pd.pandas.read_csv('https://docs.google.com/spreadsheets/d/17pNZFIaV_NpQfSed-msIGu9jzzqF6JBvCZrBRiU2ZkQ/gviz/tq?tqx=out:csv')


def CleanDATA(data):
    data = data.drop(columns=['Annual']) 
    data = data.drop(data.index[29:-1])
    data = data.drop(data.index[-1])
    monthname=[]
    Temp=[]
    for row in range(0,len(data)):
        for col in range(1,13):
            #monthname.append(str(col)+"-"+str(data['Year'][row]))
            monthname.append(str(data['Year'][row])+str(col))
            Temp.append(data.iloc[row,col])

    df0=pd.DataFrame()
    df0['Month']=monthname
    df0['Temperature']=Temp
    df0['Month']=pd.to_datetime(df0['Month'],format='%Y.0%m') #change the date form
    df0['Month'] = pd.to_datetime(df0['Month']).dt.date # remove time, only keep date
    data =df0[df0.applymap(np.isreal).all(1)] # remove non-numerical     

    return data


data1 = CleanDATA(df1)
data2 = CleanDATA(df2)
data3 = CleanDATA(df3) 

此外,在阅读以下excel文件时,我发现Pandas存在问题: https://drive.google.com/file/d/1V9fKpACbLrSi0NfB0FHSgc96PQerKkUF/view?usp=sharing(这是1990-2019年的城市1的温度数据)

2019年仍在进行中,因此,NOAA站仅提供直到今年5月的信息。 Excel数据通过“ M”标记所有丢失的数据。我注意到,一旦该列带有“ M”,即使我已经删除了2019行,也无法直接使用boxplot。 Spyder控制台会说“项目[Jun to Dec]”丢失了(接线的事情是我可以使用相同的数据来绘制XY线图)。要绘制箱线图,我必须在excel中手动删除2019年信息(1行),而不是读取新文件。

1 个答案:

答案 0 :(得分:0)

我会使用字典(或列表或其他可迭代的)来完成它。

cities = {'city1': 'https://...', 'city2': 'https://...', 'city3': 'https://...'}
df = {}
data = {}
for city, url in iteritems(cities):
    df[city] = pd.pandas.read_csv(url)
    data[city] = CleanDATA(df[city])