使用pyspark解析特定列

时间:2018-05-31 08:03:40

标签: python apache-spark pyspark

我设置了以下脚本:

conf = SparkConf().setAppName("GetAif")
sc = SparkContext(conf=conf)
sqlContext = SQLContext(sc)    

schemaString = "c1 c2 id c3 c4 gender"

fields = [StructField(field_name, StringType(), True) for field_name 
           in schemaString.split()]
custschema = StructType(fields)

data_extract = sqlContext.read \
.format('com.databricks.spark.csv') \
.option("header", "true") \
.option("mode", "DROPMALFORMED") \
.option("delimiter", ',') \
.option("inferSchema", "false") \
.load('/data/dataset.csv', 
        schema = custschema) \
.selectExpr("id", "gender)

最终目标是在一个数据解析中提取性别和id变量。我很新兴,因此我确定我希望尽量减少我的操作。

我尝试过使用:

sc.textFile(/dataset.txt)

此后进行了一些操作,但由于操作次数的原因,这似乎放大了糟糕的表现 有没有更好的方法可能更清洁?

0 个答案:

没有答案