从我搜索的内容中发现了使用Hive创建ORC表的方法,但我想要一个ORC文件,我可以在其上运行我的自定义map-reduce作业。
另外请告诉我,Hive在我的ORC表的仓库目录下创建的文件是ORC的表文件,而不是我可以使用的actutal ORC文件?喜欢:/user/hive/warehouse/tbl_orc/000000_0
答案 0 :(得分:0)
[讨论总结]
000004_0
000004_11
)总而言之,使用Java MapReduce程序处理ORC文件集应该与处理Text文件集非常相似。您只需要提供正确的SerDe和正确的字段映射 - 我认为加密算法在文件中是显式的,因此Serde在读取时自动地处理它。请记住,ORC文件在记录级别不可拆分,但在条带级别(条带是以列式格式存储的一堆记录,带有标记化和可选压缩)。
当然,这不会让您访问ORC高级功能,例如矢量化或条带修剪(有点类似于Oracle Exadata中的“智能扫描”)。