Question

我使用Spark 1.3的DataFrame API。

我希望从DataFrame中的日期获取星期几，而不会丢失DataFrame的所有元素。

在使用DataFrame API之前，我曾使用jodatime将其放在简单的地图上。

现在有一个有效的解决方案：

sqlContext.createDataFrame(myDataFrame.map(l=>operationOnTheField(l)),myDataFrame.schema))

是否可以在不返回RDD[Row]的地图的情况下进行操作，然后使用此RDD创建数据框？

Answer 1

您可以结合使用select()上的DataFrame和用户定义的函数（UDF）来转换相关列。

import org.apache.spark.sql.SQLContext
import org.apache.spark.{SparkContext, SparkConf}
import org.apache.spark.sql.functions._

用于设置示例DataFrame。

的案例类

private case class Cust(id: Integer, name: String, 
        sales: Double, discount: Double, state: String)

然后设置SQLContext并按如下方式创建DataFrame：

import sqlContext.implicits._

val custs = Seq(
  Cust(1, "Widget Co", 120000.00, 0.00, "AZ"),
  Cust(2, "Acme Widgets", 410500.00, 500.00, "CA"),
  Cust(3, "Widgetry", 410500.00, 200.00, "CA"),
  Cust(4, "Widgets R Us", 410500.00, 0.0, "CA"),
  Cust(5, "Ye Olde Widgete", 500.00, 0.0, "MA")
)
val customerDF = sc.parallelize(custs, 4).toDF()

注册一个简单的UDF，您将用它来转换＆＃34;折扣＆＃34;柱。

val myFunc = udf {(x: Double) => x + 1}

获取列，将UDF应用于＆＃34;折扣＆＃34;专栏，留下其他人。

val colNames = customerDF.columns
val cols = colNames.map(cName => customerDF.col(cName))
val theColumn = customerDF("discount")

我想找一个更好的＆＃34;匹配列的方法，但以下工作。使用as()只是因为我们可以为列添加新名称！

val mappedCols = cols.map(c => 
  if (c.toString() == theColumn.toString()) myFunc(c).as("transformed") else c)

使用select（）生成新的DataFrame

val newDF = customerDF.select(mappedCols:_*)

您已更改

id name            sales    discount state
1  Widget Co       120000.0 0.0      AZ   
2  Acme Widgets    410500.0 500.0    CA   
3  Widgetry        410500.0 200.0    CA   
4  Widgets R Us    410500.0 0.0      CA   
5  Ye Olde Widgete 500.0    0.0      MA

到

id name            sales    transformed state
1  Widget Co       120000.0 1.0         AZ   
2  Acme Widgets    410500.0 501.0       CA   
3  Widgetry        410500.0 201.0       CA   
4  Widgets R Us    410500.0 1.0         CA   
5  Ye Olde Widgete 500.0    1.0         MA

您可以找到完整示例source code here。如果您对确切的色谱柱替换不挑剔，可以使其更简单。

Answer 2

试试这个

Table.select(Table("Otherkey"),MyUdf(Table("ColNeeded")).as("UdfTransformed"))

MyUdf是由你定义的udf。

数据框的操作

2 个答案: