我想存储许多对象,然后再处理它们。 (使用数据进行统计)
现在,我做了什么:
我已经使用Thrift序列化了每个文件的一个对象。 (1个节俭对象= 1个二进制文件)
我还将thrift对象转换为Parquet文件。 (我很惊讶,因为我的节俭二进制文件大约1 KB,而镶木地板文件对于相同的数据则为140 KB!)
然后,对你来说,最好的方法是什么?
1)将Parquet文件与Impala一起使用?
2)使用Thrift文件..我不知道..? (以及如何序列化同一文件中的多个对象以获得更大的文件,我读取的文件必须非常大才能高效)
3)猪?蜂巢?与..?4)......?
我想使用HDFS来存储我的文件。
我使用Ruby创建Thrift文件,并使用Java将其转换为Parquet文件。
是否必须使用MapReduce?我可以在以后使用吗?
谢谢!