特别是当我从现有的Redshift
表中读取时,如何指定在加载到临时目录期间将使用的格式?
我的负载如下:
data = spark.read.format('com.databricks.spark.redshift') \
.option('url', REDSHIFT_URL_DEV) \
.option('dbtable', 'ods_misc.requests_2014_04') \
.option('tempdir', REDSHIFT_WEBLOG_DIR + '/2014_04') \
.load()
当我查看默认加载中的数据时,它看起来像csv
,它将列拆分为多个文件,例如col1
col2
...位于{{ 1}}等等。