我想使用Glue从RDS PostgresDB中提取数据,进行转换/清理并将其加载到S3存储桶中,以便我可以使用Athena和Quicksight可视化数据并创建报告。
我目前正在为数据清理编写Glue作业(删除NULL值等)。但是我看不到预览作业脚本结果的简便方法。运行完整的作业后,我只能在S3存储桶中看到结果。运行作业至少需要10分钟才能开始,还有更多时间才能完成。因此,我有大约15分钟的往返时间,以查看我的代码是否正确。这应该是这里的工作流程吗?我想念什么吗?
我是整个BI /数据的新手。也许我采用了错误的方法。我想在Quicksight中可视化RDS中的数据,并且需要先进行一些数据清理。还有其他适合这种情况的方法吗? (我们正在谈论的是一个约100MB的小型数据集)
谢谢!
答案 0 :(得分:1)
查看笔记本。您可以在AWS Glue控制台中进行设置。在将脚本放入Glue脚本之前,它们为您提供了一种交互方式来编写代码。 Sagemaker(Juypter)和Zeppelin笔记本在标准情况下没有什么大的区别,请猜测这取决于我们的口味。
通常,尤其是对于小型数据集,本地开发环境也可能为您工作,并为您提供更大的自由度。对于较大的数据集,通常的做法是仅获取几百条记录的样本,以便可以立即对其进行处理。在开发过程中有很大帮助。
最后:不确定为什么要离开Postgres。您想在关系世界中做哪种分析?另外,为什么不在数据库中进行清理?