一次读取一行Avro文件。蟒蛇

时间:2015-12-11 23:47:06

标签: pyspark avro

上下文: 我想将Avro文件作为RDD读入Spark。我想知道如果我有权访问Avro数据模式,是否有可能一次解析一行Avro文件。

我正在使用pyspark来编写我的火花工作。我正在考虑使用sc.textfile来读取这个巨大的文件,如果我一次可以解析一行就做一个并行解析。任何指向一次解析Avro文件的指针都将非常感激。

1 个答案:

答案 0 :(得分:0)

Spark用于大数据处理,并行多个文件分区,并且在一次读取单行时不能成为火花用例。

您可以在行转换的帮助下添加业务逻辑(应用于每一行),并且火花将延迟执行。