标签: python apache-spark pyspark pyspark-sql spark-avro
我有一个Hive表,其中包含Avro格式的基础文件,并附加了架构(xyz.avsc)。两者都在HDFS中。 我想读取Avro文件数据,就像读取HDFS文本文件(sc.textFile('hdfs:// data / filename'))一样,生成少量统计信息并在其上运行少量sparksql。
能否请您指导我如何读取Avro文件?
限制:我只安装了Avro库。 (不是快速Avro或数据块Avro)。
PS:我不想通过Hive读取数据,因为它将成为性能瓶颈。