有关CDH / Impala的迁移,数据模型和性能的问题

时间:2015-01-14 10:23:05

标签: oracle hadoop migration impala

我对Hadoop / Impala的迁移,数据模型和性能有一些疑问。

  1. 如何将Oracle应用程序迁移到cloudera hadoop / Impala

    1.1如何在impala或M / R或java / python应用程序中替换oracle存储过程。 例如,原始SP包含几个参数和sqls。

    1.2如何将不受支持的或复杂的SQL替换为从Oracle到impala的分区。 是否有任何现有示例或Impala UDF?

    1.3如何处理更新操作,因为部分数据必须更新。 例如,使用数据时间戳?使用可以支持HBase等更新的商店模型?或者使用delete all data / partition / dir并再次插入(插入覆盖)。

  2. 数据存储模型,分区设计和查询性能

    2.1如何选择impala内部表或外部表,如csv,parquet,habase? 例如,如果有几种数据,例如将Oracle中存在的大数据导入hadoop,新的业务数据导入hadoop,hadoop中的计算数据和hadoop中经常更新的数据,如何选择数据模型?如果需要加入不同类型的数据,您是否需要特别注意? 我们有来自Oracle的XX TB的数据,你对csv或者plat这样的文件格式有什么建议吗?我们是否需要在计算后将数据结果导入impala内部表或hdfs fs。如果可以更新这些数据,我们如何考虑?

    2.2如何在加入时对表/外部表进行分区 例如,存在大量传感器数据,每个传感器数据包括测量数据,采集时间戳和区域信息。 我们需要:

    1. 按不同地区计算测量数据
    2. 在特定传感器或区域的特定时间间隔内查询一系列测量数据。
    3. 始终从大量数据中查询特定传感器数据。
    4. 查询特定日期所有传感器的数据。 您能否为我们提供一些关于如何为外部表(csv)设置内部和目录结构的分区的建议。 另外,对于目录的结构,使用date = 20090101 / area = BEIJING或year = 2009 / month = 01 / day = 01 / area = BEIJING时哪个更好?有没有关于那个的指南?

0 个答案:

没有答案