我正在尝试从csv文件创建spark数据帧,但是我不想在数据帧中包括原始数据中的特定列。设置架构时或在读取csv文件时是否可能?
答案 0 :(得分:1)
@ManuValdés的15/8/2018 to 21/8/2018
答案是最好的选择,这里是带有drop
的代码
假设我们有一个pyspark
,其中包含3列:
file.csv
现在使用col1;col2;col3
val1;val2;val3
val4;val5;val6
读取csv文件:
sqlContext
拖放df = sqlContext.read.format('csv').options(header='true', delimiter=';').load('/FileStore/file.csv')
df.printSchema()
root
|-- col1: string (nullable = true)
|-- col2: string (nullable = true)
|-- col3: string (nullable = true)
:
col2
答案 1 :(得分:0)
DataFrame方法drop
返回不带指定列的DataFrame。