应用错误收集

使用PySpark读取带有模式文件的Avro文件。（图书馆的限制）

时间：2019-05-02 21:30:42

标签： python apache-spark pyspark pyspark-sql spark-avro

我有一个Hive表，其中包含Avro格式的基础文件，并附加了架构（xyz.avsc）。两者都在HDFS中。我想读取Avro文件数据，就像读取HDFS文本文件（sc.textFile（'hdfs：// data / filename'））一样，生成少量统计信息并在其上运行少量sparksql。

能否请您指导我如何读取Avro文件？

限制：我只安装了Avro库。（不是快速Avro或数据块Avro）。

PS：我不想通过Hive读取数据，因为它将成为性能瓶颈。

0 个答案:

没有答案