应用错误收集

pyspark如何在不使用combineByKey或任何reduce的情况下收集值？

时间：2016-02-24 04:21:03

标签： apache-spark

我正在尝试实现我自己的简单函数而不是combineByKey，它基本上只接受一个函数和一个迭代器，并在应用函数时返回键值对。

例如：如果我的rdd看起来像这样：（[（＆＃34; x＆＃34;，2），（＆＃34; y＆＃34;，1），（＆＃34; x＆＃34;，3）] ）和一个将值相乘的函数。我想将这两个插入到我新创建的名为collector的函数中，并将其作为回报（[＆＃34; x＆＃34;，6），（＆＃34; y＆＃34;，1）]。

我想尽可能简单，但这是我第一次在pyspark编码，所以我不太清楚如何开始这个。

1 个答案:

答案 0 :(得分：0)

使用partitionbykey而不是PairRDD并致电mappartitions并提供您的功能。

partitionebykey确保相同分区中存在相同的密钥。

我如何在样式项中一起或值？
Apache Spark Python GroupByKey或reduceByKey或combineByKey
pyspark如何在不使用combineByKey或任何reduce的情况下收集值？
如何在没有迭代器的情况下在Ruby中收集块值？
使用combineByKey（）时出错
如何改善pyspark中的.collect（）？
将Spark CombineByKey与一组值一起使用
在没有groupby或调用collect（）的情况下在pyspark中有效地查找max（date）
如何使用Map / Reduce或任何其他方法为rdd查找每个列的MIN和MAX
使用CombineByKey添加整数会将其添加到列表中

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？