应用错误收集

我想存储许多对象，然后再处理它们。（使用数据进行统计）

现在，我做了什么：

我已经使用Thrift序列化了每个文件的一个对象。（1个节俭对象= 1个二进制文件）



我还将thrift对象转换为Parquet文件。（我很惊讶，因为我的节俭二进制文件大约1 KB，而镶木地板文件对于相同的数据则为140 KB！）

然后，对你来说，最好的方法是什么？

1）将Parquet文件与Impala一起使用？

2）使用Thrift文件..我不知道..？（以及如何序列化同一文件中的多个对象以获得更大的文件，我读取的文件必须非常大才能高效）
     3）猪？蜂巢？与..？

4）......？

我想使用HDFS来存储我的文件。

我使用Ruby创建Thrift文件，并使用Java将其转换为Parquet文件。

是否必须使用MapReduce？我可以在以后使用吗？

谢谢！