Question

我有一个没有标题的文本文件，如何使用spark dataframe api读取它并指定标题。有没有办法指定我的架构

sample_data = spark.read.option（＆＃34; header＆＃34;，＆＃34; false＆＃34;）。text（sample）

打印＆＃34;数据大小为{}＆＃34; .format（sample_data.count（））

打印类型（sample_data）

print sample_data.take（2）

Answer 1

首先，将文件另存为csv。您可以指定架构：

schema = StructType([ \
    StructField("column1", StringType(), True), \
    StructField("column2", DoubleType(), True), \
    StructField("column3", IntegerType(), True)])

等等。如果你正在使用spark 2.0 +：

spark.read.csv(
    "file.csv", header=True, schema=schema
)

如果您正在使用spark＆lt; 2.0：

sales = sqlContext.read.format('com.databricks.spark.csv')\
    .options(header='true', delimiter='whatever youre using as delimiter')\
    .load('file.csv', schema = schema)

Answer 2

df=spark.read.format("com.databricks.spark.csv").option("header", "true").option("inferschema", "true").option("mode", "DROPMALFORMED").load(<path_name>)
# header can made to false, if there is no schema

spark数据帧读取没有标题的文本文件

2 个答案: