比较AWS S3中的Avro数据类型

时间:2018-12-03 22:26:55

标签: amazon-web-services amazon-s3 amazon-redshift

我在AWS S3中有2个具有AVRO数据类型的文件(一个SQL Server数据,另一个来自Redshift)。如何比较并找出差异?雅典娜是唯一的方法吗?

1 个答案:

答案 0 :(得分:0)

与该数据来自哪个数据库平台几乎无关,因为这些平台均未将数据本机导出为Avro格式,因此我们必须假设已使用某些第三方过程来提取数据并生成文件。

对于您实际的问题,即如何分析这些文件中的数据并进行某种比较,使用AWS时有许多选择,具体取决于您有权访问的内容:

1)将两个文件都复制(加载)到Redshift中,并使用SQL语句进行比较
2)在S3中的文件上创建Redshift Spectrum表,并使用SQL
3)创建一个EMR群集,并使用SparkSQL,Presto或群集上运行的其他工具来分析数据
4)在Athena中创建引用这些文件的表并使用SQL