Question

这是我在这里的第一篇文章，它基于我创建并尝试解决的问题。由于无法解决首选解决方案时，我会尽力总结问题。＃3对我来说是一个真正的树桩。 Error

基于镶木地板获取大型数据文件-没问题
从镶木地板中选择5列并创建一个数据框-没问题进口大熊猫 df = pd.read_parquet（’/ Users / marmicha / Downloads / sample.parquet'， column = [“ ts”，“ session_id”，“ event”，“ duration”，“ sample_data”]）
但是这对我来说有点棘手。一列（键列）称为“ session_id”。许多价值观是独一无二的。存在许多（session_id的）重复值，并具有多个关联的数据条目行。我希望遍历主数据帧，为每个session_id创建一个唯一的数据帧。这些唯一（子）数据帧中的每个数据帧都将进行一次计算，该计算只需获取每个session_id的“ duration”列的SUM。同样，每个唯一的session_id SUM都将是唯一的，因此每个子数据帧都将拥有自己的SUM，并在其中添加一行，并与session_id一起列出该总数，我想有一个嵌套循环公式对我有用，但是每一次努力到目前为止一团糟。
最终，我想拥有一个最终的数据帧，该数据帧是这些唯一子数据帧的集合。我想我需要定义此最终数据帧，并在遍历数据时将其附加到每个新的子数据帧中。我应该能够简单地做到这一点

Finally, write this final df to a new parquet file.     Should be simple enough so I won't need help with that.

但这只是我的挑战。我需要帮助的主要设计是＃3。我玩过偶像和同伴

Answer 1

我认为$BITRISE_SOURCE_DIR函数将起作用：

groupby