我目前有几个python pandas脚本由于1)可读性而分开,2)有时我对这些部分单个脚本的输出感兴趣。
但是,通常,其中一个脚本的CSV文件输出是下一个的CSV输入,每个我必须重新读取日期时间,这是不方便的。
您为此任务建议了哪些最佳做法?当我对运行整个程序感兴趣或是否有更多的Python / Pandas方法来解决这个问题时,将所有脚本合并为一个更好吗?
谢谢你,我感谢你的所有评论,
答案 0 :(得分:1)
您可以分别使用方法pandas.DataFrame
和pandas.DataFrame.to_pickle()
以高效的二进制格式编写和读取pandas.read_pickle()
,而不是编写必须重新解析的CSV输出。 / p>
答案 1 :(得分:1)
如果我理解你的问题,使用模块对我来说是最好的方法。
您可以将脚本分开,并在需要时在依赖脚本中将它们作为模块导入。例如:
脚本1:
import pandas
def create_pandas_dataframe():
# Creating a dataframe ...
df = pandas.DataFrame()
return df
def run():
# Run the script 1
df = create_pandas_dataframe()
# Here, call other functions specific to this script
if __name__ == '__main__':
# Run the script
run()
脚本2:
from script_1 import create_pandas_dataframe
def use_pandas_dataframe(a_df):
print a_df
if __name__ == '__main__':
df = create_pandas_dataframe()
use_pandas_dataframe(df)
这样,您可以直接使用现有函数的输出作为另一个函数的输入,而不会将它们放在同一个脚本中。