应用错误收集

将两列传递给keyBy（）Spark

时间：2016-02-20 00:30:18

标签： scala join apache-spark

我是Spark和Scala的新手。我正在读火花中的.csv。我想在两列上应用keyBy()。任何想法。

说column _(0)和_(1)

1 个答案:

答案 0 :(得分：2)

我假设你想要应用的RDD keyBy是一个RDD的数组。然后，您只需提供val rdd=sc.parallelize(List( Array(1,2,3), Array(1,2,4), Array(2,3,1), Array(2,3,2) )) val keyedRdd=rdd.keyBy{a=>(a(0),a(1))} keyedRdd.take(4) //Array[((Int, Int), Array[Int])] = Array( // ((1,2),Array(1, 2, 3)), // ((1,2),Array(1, 2, 4)), // ((2,3),Array(2, 3, 1)), // ((2,3),Array(2, 3, 2)) //)方法，并将函数映射到前两列：

{{1}}

将两列传递给keyBy（）Spark
如何将向量列拆分为两列？
Spark：keyBy（）vs mapToPair（）
在pyspark（火花）中使用RDD的keyby进行管道衬里/键控
如何将列拆分为每种类型的两个集合？
Spark CassandraTableScanRDD KeyBy不保留所有列
Spark Row keyBy值
将列数组传递到UDF时过滤出Null列-Spark SQL
如何将两个或多个列合并为一个？
将类型为org.apache.spark.sql.Column的两个独立列转换为Scala中两个列的数据框

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？