我有一个没有标题的文本文件,如何使用spark dataframe api读取它并指定标题。有没有办法指定我的架构
sample_data = spark.read.option(" header"," false")。text(sample)
打印"数据大小为{}" .format(sample_data.count())
打印类型(sample_data)
print sample_data.take(2)
答案 0 :(得分:0)
首先,将文件另存为csv。您可以指定架构:
schema = StructType([ \
StructField("column1", StringType(), True), \
StructField("column2", DoubleType(), True), \
StructField("column3", IntegerType(), True)])
等等。 如果你正在使用spark 2.0 +:
spark.read.csv(
"file.csv", header=True, schema=schema
)
如果您正在使用spark< 2.0:
sales = sqlContext.read.format('com.databricks.spark.csv')\
.options(header='true', delimiter='whatever youre using as delimiter')\
.load('file.csv', schema = schema)
答案 1 :(得分:0)
df=spark.read.format("com.databricks.spark.csv").option("header", "true").option("inferschema", "true").option("mode", "DROPMALFORMED").load(<path_name>)
# header can made to false, if there is no schema