我有一个包含多种记录类型的文件。如下
File header
Group header 01
Subgroup 01 s1 s2
Detail record 1 v1,v2,v3,v4
Detail record 2 v1,v2,v3,v4
Detail record 3 v1,v2,v3,v4
Subgroup 02
Detail record 21
Detail record 22
Subgroup 02 end
Group header 01 end
File header end
该文件可以包含多个组和记录。每个组标题还有其他信息。
有没有办法在没有预处理的情况下创建rdd? 目标是能够分析/查询文件中的数据。例如,对于组01中的所有v1的计数