应用错误收集

上下文是我从API获取数据。我可以选择将它们作为.csv（每小时批处理）导出到文件系统上，或者直接通过hdfs中的spark插入它们。
所以我有2个场景我在想：
1）首先在文件系统上写.csv *运行python脚本并将.csv存储在文件系统中 *将Hdfs加载到单个目录中，在目录上使用外部hive表。
*创建另一个蜂巢表（例如镶木地板），并从外部表格中插入覆盖到该表格 2）直接在hdfs上写入数据
*运行火花作业并将数据存储为镶木地板文件
*每次创建新的镶木地板目录时，创建外部配置单元表并添加分区。

方案2似乎是最简单的监控方式（减少了工作量），但分区数量限制了多少呢？我应该在一段时间后将数据恢复为场景2）中的单个分区吗？有没有更好的方法让我失踪？

从多个文件对Hive表进行增量更新的最佳方法

0 个答案: