在Spark结构化流中读取ORC文件

时间:2020-07-04 09:37:39

标签: apache-spark pyspark spark-structured-streaming orc

我正在使用结构化流从pyspark读取本地目录中的ORC文件

    StructField("RowNo", StringType()),
    StructField("InvoiceNo", StringType()),
    StructField("StockCode", StringType()),
    StructField("Description", StringType()),
    StructField("Quantity", StringType()),
    StructField("InvoiceDate", StringType()),
    StructField("UnitPrice", StringType()),
    StructField("CustomerId", StringType()),
    StructField("Country", StringType()),
    StructField("InvoiceTimestamp", StringType())
])

data = spark.readStream.format("orc").schema(schema).option("header", "true").option("path",r"\retail-data-orc").load()

但是当我使用此代码在控制台上显示数据

query = data.writeStream.format(source="console").outputMode("update").start()

我只得到NULL值。我不知道原因

0 个答案:

没有答案