Question

我设置了以下脚本：

conf = SparkConf().setAppName("GetAif")
sc = SparkContext(conf=conf)
sqlContext = SQLContext(sc)    

schemaString = "c1 c2 id c3 c4 gender"

fields = [StructField(field_name, StringType(), True) for field_name 
           in schemaString.split()]
custschema = StructType(fields)

data_extract = sqlContext.read \
.format('com.databricks.spark.csv') \
.option("header", "true") \
.option("mode", "DROPMALFORMED") \
.option("delimiter", ',') \
.option("inferSchema", "false") \
.load('/data/dataset.csv', 
        schema = custschema) \
.selectExpr("id", "gender)

最终目标是在一个数据解析中提取性别和id变量。我很新兴，因此我确定我希望尽量减少我的操作。

我尝试过使用：

sc.textFile(/dataset.txt)

此后进行了一些操作，但由于操作次数的原因，这似乎放大了糟糕的表现有没有更好的方法可能更清洁？

使用pyspark解析特定列

0 个答案: