我想定期将大型csv文件(最多6 GB)摄取到具有32 GB RAM的Hadoop单节点中。它们的关键要求是在HCatalog中注册数据。 (请不要讨论要求,这是一个功能演示)。表现并不重要。蜂巢表应该被分区。
到目前为止,我正在使用猪。到目前为止的经验教训是,主要的挑战是堆。生成的MapReduce作业快速填满堆,一旦Java占垃圾收集时间的98%,就会出现溢出。
一种解决方案可能是将大文件分成小块......但是,我也认为与Pig不同的技术可能不会填满堆。关于如何处理这种用例的任何想法? THX
答案 0 :(得分:1)
最好的办法是使用HiveQL而不是Pig(LOAD)。它仅基于文件传输,没有MR作业