我设置了以下脚本:
conf = SparkConf().setAppName("GetAif")
sc = SparkContext(conf=conf)
sqlContext = SQLContext(sc)
schemaString = "c1 c2 id c3 c4 gender"
fields = [StructField(field_name, StringType(), True) for field_name
in schemaString.split()]
custschema = StructType(fields)
data_extract = sqlContext.read \
.format('com.databricks.spark.csv') \
.option("header", "true") \
.option("mode", "DROPMALFORMED") \
.option("delimiter", ',') \
.option("inferSchema", "false") \
.load('/data/dataset.csv',
schema = custschema) \
.selectExpr("id", "gender)
最终目标是在一个数据解析中提取性别和id变量。我很新兴,因此我确定我希望尽量减少我的操作。
我尝试过使用:
sc.textFile(/dataset.txt)
此后进行了一些操作,但由于操作次数的原因,这似乎放大了糟糕的表现 有没有更好的方法可能更清洁?