应用错误收集

Glue Crawler可以爬取deltalake文件以在AWS胶目录中创建表吗？

时间：2020-09-05 15:22:50

标签： apache-spark aws-glue delta-lake aws-glue-data-catalog data-lake

我们有一个现有的基础架构，正在通过AWS爬网程序来爬网S3目录。这些S3目录是作为AWS datalake的一部分创建的，并通过spark作业转储。现在，为了实现增量功能，我们在deltalake上进行了POC。因此，当我通过spark-delta Jobs在S3中编写这些deltalake文件时，我的搜寻器无法从这些搜寻器创建表。

我们可以使用AWS搜寻器来搜寻delta lake文件吗？

1 个答案:

答案 0 :(得分：1)

根据此doc，您不应该使用Glue搜寻器。您应该将清单文件用于Athena的integrate增量文件中。

警告

请勿在以下位置使用AWS Glue Crawler：在AWS Glue中定义表。三角洲湖维护相应的文件到表的多个版本，并查询所有已爬网的文件会产生不正确的结果。

AWS胶水爬虫不创建表
Aws胶水不会检测分区并在aws胶水目录中创建10000多个表
在胶水作业中创建胶水数据目录表
我可以更改aws胶作业生成的文件名吗？
防止AWS胶搜寻器创建多个表
Aws胶目录-如何不使用胶目录对表进行分区
AWS Glue Crawler没有创建目录表
使用手动创建的表运行时，AwS胶粘作业读取0个文件
使用胶水API更新AWS胶水目录表
Glue Crawler可以爬取deltalake文件以在AWS胶目录中创建表吗？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？