我在蜂巢中有一些表格。这些表将数据逐渐附加到它们。
现在我在pyspark中使用hive中的表创建了data frame
。我在data frame
上进行了转置,并在hive中创建了另一个带有新转置data frame
的表格。
明天说我在100个新行的hive表中获得新的增量数据。现在我想只使用这100个新行创建一个新的data frame
并进行转置并附加到现有的转置配置单元表。
如何使用pyspark实现这一目标。
答案 0 :(得分:0)
Hive中的语义本身并不足以提供此功能。数据必须通过内容,文件或元数据处理来识别。
按内容标识:数据包含时间或日期戳,允许您针对表创建查询,但仅筛选出感兴趣的行。
可通过文件识别:例如,跳过Hive界面并尝试使用单个文件上的Modify
或Change
时间戳来查找HDFS / POSIX上的数据。将文件直接加载为新数据帧。
可通过元数据流程识别:在我构建的架构中,我使用Apache NiFi,Kafka和Cloudera Navigator提供有关文件和数据提取的元数据谱系。如果您的体系结构包含有关已摄取数据的元数据,您可以利用它来识别所需的文件/记录。
答案 1 :(得分:0)
我在这里遇到了同样的问题,我正在研究 Apache Hudi 解决方案,不幸的是,新的增量数据需要通过 HUDI 存储,因此可以生成元数据。 这是有关如何在 AWS 环境中使用 Hudi 数据集的quick guide。