dataframe.select,从文件中选择数据框列

时间:2019-02-22 20:10:33

标签: scala apache-spark apache-spark-sql

我正在尝试从父数据框创建子数据框。但我有100多个cols可供选择。 所以在Select语句中我可以给文件中的列吗?

val Raw_input_schema=spark.read.format("text").option("header","true").option("delimiter","\t").load("/HEADER/part-00000").schema

val Raw_input_data=spark.read.format("text").schema(Raw_input_schema).option("delimiter","\t").load("/DATA/part-00000")

val filtered_data = Raw_input_data.select(all_cols)

如何从all_cols文件中发送列名称

2 个答案:

答案 0 :(得分:0)

我假设您会从hdfs或共享配置文件中读取文件?这样做的原因是,该代码将在群集上的单个节点等上执行。

在这种情况下,我将使用下一段代码来解决这个问题:

  import org.apache.spark.sql.functions.col
  val lines = Source.fromFile("somefile.name.csv").getLines

  val cols = lines.flatMap(_.split(",")).map( col(_)).toArray
  val df3 = df2.select(cols :_ *)

本质上,您只需要提供字符串数组,并使用:_ *表示可变数量的参数即可。

答案 1 :(得分:0)

最终这对我有用;

val Raw_input_schema=spark.read.format("csv").option("header","true").option("delimiter","\t").load("headerFile").schema

val Raw_input_data=spark.read.format("csv").schema(Raw_input_schema).option("delimiter","\t").load("dataFile")

val filtered_file = sc.textFile("filter_columns_file").map(cols=>cols.split("\t")).flatMap(x=>x).collect().toList

//or

val filtered_file = sc.textFile(filterFile).map(cols=>cols.split("\t")).flatMap(x=>x).collect().toList.map(x => new Column(x))

val final_df=Raw_input_data.select(filtered_file.head, filtered_file.tail: _*)

//or

val final_df = Raw_input_data.select(filtered_file:_*)'