apache-spark - 如何使用增量数据在pyspark中创建数据帧

时间：2017-02-18 22:59:52

标签： apache-spark dataframe pyspark transpose

我在蜂巢中有一些表格。这些表将数据逐渐附加到它们。

现在我在pyspark中使用hive中的表创建了data frame。我在data frame上进行了转置，并在hive中创建了另一个带有新转置data frame的表格。

明天说我在100个新行的hive表中获得新的增量数据。现在我想只使用这100个新行创建一个新的data frame并进行转置并附加到现有的转置配置单元表。

如何使用pyspark实现这一目标。

答案 0 :(得分：0)

Hive中的语义本身并不足以提供此功能。数据必须通过内容，文件或元数据处理来识别。

按内容标识：数据包含时间或日期戳，允许您针对表创建查询，但仅筛选出感兴趣的行。

可通过文件识别：例如，跳过Hive界面并尝试使用单个文件上的Modify或Change时间戳来查找HDFS / POSIX上的数据。将文件直接加载为新数据帧。

可通过元数据流程识别：在我构建的架构中，我使用Apache NiFi，Kafka和Cloudera Navigator提供有关文件和数据提取的元数据谱系。如果您的体系结构包含有关已摄取数据的元数据，您可以利用它来识别所需的文件/记录。

答案 1 :(得分：0)

我在这里遇到了同样的问题，我正在研究 Apache Hudi 解决方案，不幸的是，新的增量数据需要通过 HUDI 存储，因此可以生成元数据。这是有关如何在 AWS 环境中使用 Hudi 数据集的quick guide。