标签: hadoop
我是hadoop的新手,我遇到了麻烦:一些数据将每天存储在hadoop中,我会同时进行一些处理。这些处理可能会使用所有数据,或者可能只是其中的一部分(就像处理今天的数据一样),实现这一点的最佳方法是什么?
我应该生成一天的单个文件,还是从开始到结束只生成一个文件?我认为hadoop在mongodb中没有像'query'这样的'过滤'机制,所以如果我只是想处理今天的数据,那么通过所有数据是否浪费?
任何建议都会有所帮助,谢谢!