如何为树结构创建spark rdd

时间:2014-12-05 04:50:07

标签: hadoop apache-spark

我有一个包含多种记录类型的文件。如下

File header 
       Group header 01
              Subgroup 01 s1 s2 
                Detail record 1 v1,v2,v3,v4
                Detail record 2 v1,v2,v3,v4
                Detail record 3 v1,v2,v3,v4
              Subgroup 02
                 Detail record 21
                 Detail record 22
              Subgroup 02 end
           Group header 01 end
 File header end

该文件可以包含多个组和记录。每个组标题还有其他信息。

有没有办法在没有预处理的情况下创建rdd? 目标是能够分析/查询文件中的数据。例如,对于组01中的所有v1的计数

0 个答案:

没有答案