spark数据帧读取没有标题的文本文件

时间:2016-10-11 21:17:56

标签: python apache-spark dataframe pyspark

我有一个没有标题的文本文件,如何使用spark dataframe api读取它并指定标题。有没有办法指定我的架构

sample_data = spark.read.option(" header"," false")。text(sample)

打印"数据大小为{}" .format(sample_data.count())

打印类型(sample_data)

print sample_data.take(2)

2 个答案:

答案 0 :(得分:0)

首先,将文件另存为csv。您可以指定架构:

schema = StructType([ \
    StructField("column1", StringType(), True), \
    StructField("column2", DoubleType(), True), \
    StructField("column3", IntegerType(), True)])

等等。 如果你正在使用spark 2.0 +:

spark.read.csv(
    "file.csv", header=True, schema=schema
)

如果您正在使用spark< 2.0:

sales = sqlContext.read.format('com.databricks.spark.csv')\
    .options(header='true', delimiter='whatever youre using as delimiter')\
    .load('file.csv', schema = schema)

答案 1 :(得分:0)

df=spark.read.format("com.databricks.spark.csv").option("header", "true").option("inferschema", "true").option("mode", "DROPMALFORMED").load(<path_name>)
# header can made to false, if there is no schema