读入Spark数据框时如何从CSV文件中删除列

时间:2018-08-01 07:24:33

标签: csv pyspark apache-spark-sql hdfs

我正在尝试从csv文件创建spark数据帧,但是我不想在数据帧中包括原始数据中的特定列。设置架构时或在读取csv文件时是否可能?

2 个答案:

答案 0 :(得分:1)

@ManuValdés的15/8/2018 to 21/8/2018答案是最好的选择,这里是带有drop的代码

假设我们有一个pyspark,其中包含3列:

file.csv

现在使用col1;col2;col3 val1;val2;val3 val4;val5;val6 读取csv文件:

sqlContext

拖放df = sqlContext.read.format('csv').options(header='true', delimiter=';').load('/FileStore/file.csv') df.printSchema() root |-- col1: string (nullable = true) |-- col2: string (nullable = true) |-- col3: string (nullable = true)

col2

答案 1 :(得分:0)

DataFrame方法drop返回不带指定列的DataFrame。