我想将SegY文件加载到3节点Apache Hadoop集群的HDFS上。
总而言之,SegY文件包含:
99.99%的文件大小是由可变字节数据引起的,该数据是数千个连续跟踪的集合。对于任何有意义的SegY文件,它必须具有文本标题+二进制标题+至少一个数据跟踪。 我想要实现的是将一个大的SegY文件拆分到Hadoop集群上,以便在每个节点上有一个较小的SegY文件可供本地处理。
方案如下:
答案 0 :(得分:0)
似乎a Github project做了类似的事情:
suhdp
的加载命令将在本地计算机上采用SEG-Y或SU格式的文件,格式化它们以便与Hadoop一起使用,并将它们复制到Hadoop集群。
suhdp load -input <local SEG-Y/SU files> -output <HDFS target> [-cwproot <path>]
这可能不是您所需要的,但这似乎是我能找到将SEG-Y文件加载到HDFS的最简单方法。