Question

我试图通过多个数据帧运行一个函数，但是我遇到了问题。我的主要问题是： 1）我尝试使用zip（df1，df2，df3，...）运行定义的函数，并且输出为新的DF1，DF2，DF3，...；但是，我失败了。是否可以通过多个数据框运行一个函数，并且输出也是“ zip”格式的数据框？

2）如果不能选择zip（），如何使我的函数循环运行？目前，我只有三个数据框，可以轻松地分别完成。但是我想知道当我有50、100甚至更多的数据帧时如何处理它。

这是我的代码：

import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt 
import seaborn as sns  
#import scipy.stats as ss

# *********** 3 City Temperature files from NOAA ***********
# City 1
df1 = pd.pandas.read_csv('https://docs.google.com/spreadsheets/d/1Uj5N363dEVJZ9WVy2a_kkbJKJnyyE5qnEqOfzO0UCQE/gviz/tq?tqx=out:csv')
# City 2
df2 = pd.pandas.read_csv('https://docs.google.com/spreadsheets/d/13CgTdDCDzB_3WIYIRVMeLu6E36xzHSzRR5T_Ku0vThA/gviz/tq?tqx=out:csv')
# City 3
df3 = pd.pandas.read_csv('https://docs.google.com/spreadsheets/d/17pNZFIaV_NpQfSed-msIGu9jzzqF6JBvCZrBRiU2ZkQ/gviz/tq?tqx=out:csv')


def CleanDATA(data):
    data = data.drop(columns=['Annual']) 
    data = data.drop(data.index[29:-1])
    data = data.drop(data.index[-1])
    monthname=[]
    Temp=[]
    for row in range(0,len(data)):
        for col in range(1,13):
            #monthname.append(str(col)+"-"+str(data['Year'][row]))
            monthname.append(str(data['Year'][row])+str(col))
            Temp.append(data.iloc[row,col])

    df0=pd.DataFrame()
    df0['Month']=monthname
    df0['Temperature']=Temp
    df0['Month']=pd.to_datetime(df0['Month'],format='%Y.0%m') #change the date form
    df0['Month'] = pd.to_datetime(df0['Month']).dt.date # remove time, only keep date
    data =df0[df0.applymap(np.isreal).all(1)] # remove non-numerical     

    return data


data1 = CleanDATA(df1)
data2 = CleanDATA(df2)
data3 = CleanDATA(df3)

此外，在阅读以下excel文件时，我发现Pandas存在问题： https://drive.google.com/file/d/1V9fKpACbLrSi0NfB0FHSgc96PQerKkUF/view?usp=sharing（这是1990-2019年的城市1的温度数据）

2019年仍在进行中，因此，NOAA站仅提供直到今年5月的信息。 Excel数据通过“ M”标记所有丢失的数据。我注意到，一旦该列带有“ M”，即使我已经删除了2019行，也无法直接使用boxplot。 Spyder控制台会说“项目[Jun to Dec]”丢失了（接线的事情是我可以使用相同的数据来绘制XY线图）。要绘制箱线图，我必须在excel中手动删除2019年信息（1行），而不是读取新文件。

Answer 1

我会使用字典（或列表或其他可迭代的）来完成它。

cities = {'city1': 'https://...', 'city2': 'https://...', 'city3': 'https://...'}
df = {}
data = {}
for city, url in iteritems(cities):
    df[city] = pd.pandas.read_csv(url)
    data[city] = CleanDATA(df[city])

使用功能循环多个数据框

1 个答案: