应用错误收集

PySpark Dataframes上的reduceByKey等价物

时间：2016-10-13 20:10:11

标签： apache-spark pyspark spark-dataframe

我正在尝试使用pySpark Dataframe API进行一些涉及聚合的数据分析。我的理解是git branch -f branch-name HEAD git checkout branch-name操作等同于groupBy() Spark命令。 Dataframe API上是否有一个等同于Spark groupByKey()的命令？我担心的是reduceByKey()似乎会将密钥的所有值都收集到内存中，这在性能方面并不是很好。

感谢。

0 个答案:

没有答案

PySpark对多个值的reduceByKey
PySpark ReduceByKey
Pyspark：基于reducebykey rdd中的键
如何减少KeyKey？
python中的ReduceByKey
嵌套元组上的Pyspark reduceByKey
PySpark Dataframes上的reduceByKey等价物
reduceByKey和lambda
了解分组方式，对转换后的数据集进行reduceByKey
如何在数据帧上应用类似的RDD reduceByKey

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？