如果我们没有架构,我们如何引用数据框中的特定字段。 我们可以引用一些东西,比如col1,col2,col3,.....等,而不是名字。
我有一个像下面这样的csv文件。
arun|1001|hyd|x|y|z
suresh|1002|hyd|a|h|t
arun|1003|chn|e|g|e
suresh|1004|ban|r|f|w
如何引用第一个字段并根据名称过滤记录,将其写入单独的文件。
所有arun
条记录和suresh
我想写入单独的文件,如下所示。
arun|1001|hyd|x|y|z
arun|1003|chn|e|g|e
和
suresh|1002|hyd|a|h|t
suresh|1004|ban|r|f|w
答案 0 :(得分:0)
三个选项:
在Scala架构中生成为:
import org.apache.spark.sql.Row
import org.apache.spark.sql.functions.{col, udf}
import org.apache.spark.sql.types._
val schema = StructType(
StructField("name", StringType, false) ::
StructField("intValue", IntegerType, false) :: Nil)
val df = sqlContext.createDataFrame(dfFromLoad.rdd, schema)