我已经设置了' partitionSize'多个不同值的选项,无论数量多少,我似乎都得到相同数量的分区。根据文档,应该与HDFS块大小相对应。有什么我想念的东西。
HDFS块大小为64M
CREATE TABLE TABLE_TEST(DEFINITION_INFO) 使用com.sap.spark.vora 选项( tablename" TABLE_TEST", partitionSize" 64", 路径" /load_from_here/combined.csv", eagerLoad" true" )
csv约为680M
答案 0 :(得分:0)
参数的名称有点误导。它不是用于分区表,而是在将数据加载到表中时影响负载性能。在较新的版本中,它可能会被重命名以避免这种混淆。