如何使用增量数据在pyspark中创建数据帧

时间:2017-02-18 22:59:52

标签: apache-spark dataframe pyspark transpose

我在蜂巢中有一些表格。这些表将数据逐渐附加到它们。

现在我在pyspark中使用hive中的表创建了data frame。我在data frame上进行了转置,并在hive中创建了另一个带有新转置data frame的表格。

明天说我在100个新行的hive表中获得新的增量数据。现在我想只使用这100个新行创建一个新的data frame并进行转置并附加到现有的转置配置单元表。

如何使用pyspark实现这一目标。

2 个答案:

答案 0 :(得分:0)

Hive中的语义本身并不足以提供此功能。数据必须通过内容,文件或元数据处理来识别。

按内容标识:数据包含时间或日期戳,允许您针对表创建查询,但仅筛选出感兴趣的行。

可通过文件识别:例如,跳过Hive界面并尝试使用单个文件上的ModifyChange时间戳来查找HDFS / POSIX上的数据。将文件直接加载为新数据帧。

可通过元数据流程识别:在我构建的架构中,我使用Apache NiFi,Kafka和Cloudera Navigator提供有关文件和数据提取的元数据谱系。如果您的体系结构包含有关已摄取数据的元数据,您可以利用它来识别所需的文件/记录。

答案 1 :(得分:0)

我在这里遇到了同样的问题,我正在研究 Apache Hudi 解决方案,不幸的是,新的增量数据需要通过 HUDI 存储,因此可以生成元数据。 这是有关如何在 AWS 环境中使用 Hudi 数据集的quick guide