在导入Spark数据集之前修剪csv文件

时间:2017-11-10 13:03:51

标签: apache-spark dataset

我看过这篇关于如何指定用于创建数据集的模式的帖子

Spark Scala: Cannot up cast from string to int as it may truncate

val spark = SparkSession.builder()
  .master("local")
  .appName("test")
  .getOrCreate()

import org.apache.spark.sql.Encoders
val schema = Encoders.product[Record].schema

val ds = spark.read
  .option("header", "true")
  .schema(schema)  // passing schema 
  .option("timestampFormat", "MM/dd/yyyy HH:mm") // passing timestamp format
  .csv(path)// csv path
  .as[Record] // convert to DS

它适用于我,但不适用于csv中有空格的情况。是否可以在同一个spark.read序列中修剪csv?

0 个答案:

没有答案