处理许多物体的最佳方法?

时间:2014-06-17 09:23:44

标签: hadoop apache-pig thrift impala parquet

我想存储许多对象,然后再处理它们。 (使用数据进行统计)

现在,我做了什么:

  
      
  • 我已经使用Thrift序列化了每个文件的一个对象。 (1个节俭对象= 1个二进制文件)

  •   
  • 我还将thrift对象转换为Parquet文件。 (我很惊讶,因为我的节俭二进制文件大约1 KB,而镶木地板文件对于相同的数据则为140 KB!)

  •   

然后,对你来说,最好的方法是什么?

  

1)将Parquet文件与Impala一起使用?

     

2)使用Thrift文件..我不知道..? (以及如何序列化同一文件中的多个对象以获得更大的文件,我读取的文件必须非常大才能高效)

     3)猪?蜂巢?与..?

     

4)......?

我想使用HDFS来存储我的文件。

我使用Ruby创建Thrift文件,并使用Java将其转换为Parquet文件。

是否必须使用MapReduce?我可以在以后使用吗?

谢谢!

0 个答案:

没有答案