我对Hadoop / Impala的迁移,数据模型和性能有一些疑问。
如何将Oracle应用程序迁移到cloudera hadoop / Impala
1.1如何在impala或M / R或java / python应用程序中替换oracle存储过程。 例如,原始SP包含几个参数和sqls。
1.2如何将不受支持的或复杂的SQL替换为从Oracle到impala的分区。 是否有任何现有示例或Impala UDF?
1.3如何处理更新操作,因为部分数据必须更新。 例如,使用数据时间戳?使用可以支持HBase等更新的商店模型?或者使用delete all data / partition / dir并再次插入(插入覆盖)。
数据存储模型,分区设计和查询性能
2.1如何选择impala内部表或外部表,如csv,parquet,habase? 例如,如果有几种数据,例如将Oracle中存在的大数据导入hadoop,新的业务数据导入hadoop,hadoop中的计算数据和hadoop中经常更新的数据,如何选择数据模型?如果需要加入不同类型的数据,您是否需要特别注意? 我们有来自Oracle的XX TB的数据,你对csv或者plat这样的文件格式有什么建议吗?我们是否需要在计算后将数据结果导入impala内部表或hdfs fs。如果可以更新这些数据,我们如何考虑?
2.2如何在加入时对表/外部表进行分区 例如,存在大量传感器数据,每个传感器数据包括测量数据,采集时间戳和区域信息。 我们需要: