建议处理多个python pandas脚本

时间:2016-09-01 13:34:03

标签: python pandas

我目前有几个python pandas脚本由于1)可读性而分开,2)有时我对这些部分单个脚本的输出感兴趣。

但是,通常,其中一个脚本的CSV文件输出是下一个的CSV输入,每个我必须重新读取日期时间,这是不方便的。

您为此任务建议了哪些最佳做法?当我对运行整个程序感兴趣或是否有更多的Python / Pandas方法来解决这个问题时,将所有脚本合并为一个更好吗?

谢谢你,我感谢你的所有评论,

2 个答案:

答案 0 :(得分:1)

您可以分别使用方法pandas.DataFramepandas.DataFrame.to_pickle()以高效的二进制格式编写和读取pandas.read_pickle(),而不是编写必须重新解析的CSV输出。 / p>

答案 1 :(得分:1)

如果我理解你的问题,使用模块对我来说是最好的方法。

您可以将脚本分开,并在需要时在依赖脚本中将它们作为模块导入。例如:

脚本1:

import pandas

def create_pandas_dataframe():
    # Creating a dataframe ...
    df = pandas.DataFrame()
    return df

def run():
    # Run the script 1
    df = create_pandas_dataframe()
    # Here, call other functions specific to this script

if __name__ == '__main__':
    # Run the script
    run()

脚本2:

from script_1 import create_pandas_dataframe

def use_pandas_dataframe(a_df):
    print a_df

if __name__ == '__main__':
    df = create_pandas_dataframe()
    use_pandas_dataframe(df)

这样,您可以直接使用现有函数的输出作为另一个函数的输入,而不会将它们放在同一个脚本中。