上下文: 我想将Avro文件作为RDD读入Spark。我想知道如果我有权访问Avro数据模式,是否有可能一次解析一行Avro文件。
我正在使用pyspark来编写我的火花工作。我正在考虑使用sc.textfile来读取这个巨大的文件,如果我一次可以解析一行就做一个并行解析。任何指向一次解析Avro文件的指针都将非常感激。
答案 0 :(得分:0)
Spark用于大数据处理,并行多个文件分区,并且在一次读取单行时不能成为火花用例。
您可以在行转换的帮助下添加业务逻辑(应用于每一行),并且火花将延迟执行。