我可以使用AWS Glue仅爬网最新数据吗?

时间:2019-09-10 11:27:17

标签: amazon-s3 amazon-athena aws-glue amazon-quicksight aws-glue-data-catalog

我在mySQL RDS中有一个数据表,并且创建了一个AWS Glue搜寻器。然后,我创建了一个PySpark ETL脚本[A],将抓取的数据作为JSON发送到S3,以便可以将S3数据连接到QuickSight [B]。

我预计每小时生产100万条以上的记录。我正在尝试查看AWS Glue是否可以仅对最新ID /电子邮件进行爬网,而不是对基于一列/一组列的整个RDS表进行爬网。我确实在博客或类似网站中看到了这一点,但这是用于S3爬网,而不是RDS爬网。

我还试图将Athena连接到QuickSight(即Glue爬行表),而不是在AWS Glue中完全需要PySpark ETL。如果我使用AWS Glue爬网该表,则该表不会在Athena中显示,因此将不会连接到QuickSight,并提供错误[1]。如果我进入Athena并从AWS Glue Crawler中选择create table,则该表仍不会显示在Athena中。

[A] PySpark ETL代码:

GROUP BY

[B] JSON清单文件:

select t1.productId, sum(t1.amount)
from table1 t1 join
     table2 t2
     on t1.productId = t2.productId and
        t1.date >= t2.start_date and
        t1.date <= t2.end_date
group by t1.productId;

错误:

[1]您的数据库生成了一个SQL异常。这可能是由于查询超时,资源限制,查询之前或查询期间意外的DDL更改以及其他数据库错误引起的。检查数据库设置和查询,然后重试。

[2]我们无法连接到此S3存储桶。确保您指定的任何S3存储桶都与用于创建此QuickSight帐户的AWS账户相关联。

0 个答案:

没有答案