我在数据集上执行了某些计算,我需要将结果存储在外部文件中。
如果是CSV,要进一步处理它,我必须再次转换为Dataframe / SFrame,这又会增加代码行。
以下是片段:
train_data = graphlab.SFrame(ratings_base)
显然,它位于SFrame中,可以使用
转换为DFramedf_train = train_data.to_dataframe()
现在它在DFrame中,我需要将它导出到文件而不改变它的结构。由于导出的文件将被用作另一个python代码的Argument。该代码必须接受DFrame而不是CSV。
我已经在place1,place2,place3,place4和place5
中结帐了P.S。 - 如果有人可以简化,我仍在挖掘Python序列化 它在上下文中会有所帮助
答案 0 :(得分:0)
我使用HDFS格式,因为Pandas
和graphlab.SFrame
以及HDFS格式支持HDFS格式非常快。
或者,您可以将Pandas.DataFrame导出到Pickle文件并从其他脚本中读取它:
sf.to_dataframe().to_pickle(r'/path/to/pd_frame.pickle')
将其读回(来自相同或来自其他脚本):
df = pd.read_pickle(r'/path/to/pd_frame.pickle')