应用错误收集

我是hadoop的新手，我遇到了麻烦：一些数据将每天存储在hadoop中，我会同时进行一些处理。这些处理可能会使用所有数据，或者可能只是其中的一部分（就像处理今天的数据一样），实现这一点的最佳方法是什么？

我应该生成一天的单个文件，还是从开始到结束只生成一个文件？我认为hadoop在mongodb中没有像'query'这样的'过滤'机制，所以如果我只是想处理今天的数据，那么通过所有数据是否浪费？

任何建议都会有所帮助，谢谢！