应用错误收集

我对Hadoop / Impala的迁移，数据模型和性能有一些疑问。

如何将Oracle应用程序迁移到cloudera hadoop / Impala

1.1如何在impala或M / R或java / python应用程序中替换oracle存储过程。例如，原始SP包含几个参数和sqls。

1.2如何将不受支持的或复杂的SQL替换为从Oracle到impala的分区。是否有任何现有示例或Impala UDF？

1.3如何处理更新操作，因为部分数据必须更新。例如，使用数据时间戳？使用可以支持HBase等更新的商店模型？或者使用delete all data / partition / dir并再次插入（插入覆盖）。
数据存储模型，分区设计和查询性能

2.1如何选择impala内部表或外部表，如csv，parquet，habase？例如，如果有几种数据，例如将Oracle中存在的大数据导入hadoop，新的业务数据导入hadoop，hadoop中的计算数据和hadoop中经常更新的数据，如何选择数据模型？如果需要加入不同类型的数据，您是否需要特别注意？我们有来自Oracle的XX TB的数据，你对csv或者plat这样的文件格式有什么建议吗？我们是否需要在计算后将数据结果导入impala内部表或hdfs fs。如果可以更新这些数据，我们如何考虑？

2.2如何在加入时对表/外部表进行分区例如，存在大量传感器数据，每个传感器数据包括测量数据，采集时间戳和区域信息。我们需要：
1. 按不同地区计算测量数据
2. 在特定传感器或区域的特定时间间隔内查询一系列测量数据。
3. 始终从大量数据中查询特定传感器数据。
4. 查询特定日期所有传感器的数据。您能否为我们提供一些关于如何为外部表（csv）设置内部和目录结构的分区的建议。另外，对于目录的结构，使用date = 20090101 / area = BEIJING或year = 2009 / month = 01 / day = 01 / area = BEIJING时哪个更好？有没有关于那个的指南？

有关CDH / Impala的迁移，数据模型和性能的问题

0 个答案: