将数据帧导出为数据帧格式,以作为参数传递到下一个程序

时间:2017-06-05 08:34:28

标签: python pandas dataframe export

我在数据集上执行了某些计算,我需要将结果存储在外部文件中。

如果是CSV,要进一步处理它,我必须再次转换为Dataframe / SFrame,这又会增加代码行。

以下是片段:

train_data = graphlab.SFrame(ratings_base)

显然,它位于SFrame中,可以使用

转换为DFrame
df_train = train_data.to_dataframe()

现在它在DFrame中,我需要将它导出到文件而不改变它的结构。由于导出的文件将被用作另一个python代码的Argument。该代码必须接受DFrame而不是CSV。

我已经在place1place2place3place4place5

中结帐了

P.S。 - 如果有人可以简化,我仍在挖掘Python序列化 它在上下文中会有所帮助

1 个答案:

答案 0 :(得分:0)

我使用HDFS格式,因为Pandasgraphlab.SFrame以及HDFS格式支持HDFS格式非常快。

或者,您可以将Pandas.DataFrame导出到Pickle文件并从其他脚本中读取它:

sf.to_dataframe().to_pickle(r'/path/to/pd_frame.pickle')

将其读回(来自相同或来自其他脚本):

df = pd.read_pickle(r'/path/to/pd_frame.pickle')