使用PySpark读取带有模式文件的Avro文件。 (图书馆的限制)

时间:2019-05-02 21:30:42

标签: python apache-spark pyspark pyspark-sql spark-avro

我有一个Hive表,其中包含Avro格式的基础文件,并附加了架构(xyz.avsc)。两者都在HDFS中。 我想读取Avro文件数据,就像读取HDFS文本文件(sc.textFile('hdfs:// data / filename'))一样,生成少量统计信息并在其上运行少量sparksql。

能否请您指导我如何读取Avro文件?

限制:我只安装了Avro库。 (不是快速Avro或数据块Avro)。

PS:我不想通过Hive读取数据,因为它将成为性能瓶颈。

0 个答案:

没有答案