上下文是我从API获取数据。我可以选择将它们作为.csv(每小时批处理)导出到文件系统上,或者直接通过hdfs中的spark插入它们。
所以我有2个场景我在想:
1)首先在文件系统上写.csv
*运行python脚本并将.csv存储在文件系统中
*将Hdfs加载到单个目录中,在目录上使用外部hive表。
*创建另一个蜂巢表(例如镶木地板),并从外部表格中插入覆盖到该表格
2)直接在hdfs上写入数据
*运行火花作业并将数据存储为镶木地板文件
*每次创建新的镶木地板目录时,创建外部配置单元表并添加分区。
方案2似乎是最简单的监控方式(减少了工作量),但分区数量限制了多少呢?我应该在一段时间后将数据恢复为场景2)中的单个分区吗? 有没有更好的方法让我失踪?