使用熊猫,大数据框和小数据框遍历大数据

时间:2020-10-08 22:12:50

标签: python pandas dataframe

这是我在这里的第一篇文章,它基于我创建并尝试解决的问题。由于无法解决首选解决方案时,我会尽力总结问题。 #3对我来说是一个真正的树桩。 Error

  1. 基于镶木地板获取大型数据文件-没问题

  2. 从镶木地板中选择5列并创建一个数据框-没问题 进口大熊猫 df = pd.read_parquet(’/ Users / marmicha / Downloads / sample.parquet', column = [“ ts”,“ session_id”,“ event”,“ duration”,“ sample_data”])

  3. 但是这对我来说有点棘手。一列(键列)称为“ session_id”。许多价值观是独一无二的。存在许多(session_id的)重复值,并具有多个关联的数据条目行。我希望遍历主数据帧,为每个session_id创建一个唯一的数据帧。这些唯一(子)数据帧中的每个数据帧都将进行一次计算,该计算只需获取每个session_id的“ duration”列的SUM。同样,每个唯一的session_id SUM都将是唯一的,因此每个子数据帧都将拥有自己的SUM,并在其中添加一行,并与session_id一起列出该总数,我想有一个嵌套循环公式对我有用,但是每一次努力到目前为止一团糟。

  4. 最终,我想拥有一个最终的数据帧,该数据帧是这些唯一子数据帧的集合。我想我需要定义此最终数据帧,并在遍历数据时将其附加到每个新的子数据帧中。我应该能够简单地做到这一点

  5. Finally, write this final df to a new parquet file.     Should be simple enough so I won't need help with that.      
    

但这只是我的挑战。我需要帮助的主要设计是#3。我玩过偶像和同伴

1 个答案:

答案 0 :(得分:2)

我认为$BITRISE_SOURCE_DIR函数将起作用:

groupby

更多信息在这里: https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html