应用错误收集

通过Snowpipe /外部与内部连续加载

时间：2019-10-24 15:59:17

标签： snowflake-data-warehouse

我有一个供应商正在通过SQS向我提供实时数据，并在邮件正文中提供了CSV数据。大约是每分钟一条消息。机身大小可能相差很大，但我们假设它小于512MB。

我首先想到编写一个由Lambda函数，该函数由其SQS队列触发，以上传到S3，然后使用Snowpipe从外部加载，但这对我来说似乎有些过头了。将主体本地写入/ tmp然后在内部加载会不会更容易？

我倾向于内部加载，因此我正在寻找一个令人信服的参数来代替外部使用Snowpipe / load。不使用Snowpipe，我会错过什么？

1 个答案:

答案 0 :(得分：1)

在该文档链接中引用的内部负载将文件拿到并移至S3，然后将副本运行到statement中。与要求SQS / Lamdba将消息存储在S3上并使用Snowpipe为您加载消息之间确实没有太大区别。我认为更简单，更有效的解决方案是让Lambda将数据存储在S3上（使用诸如boto3之类的东西）并让Snowpipe加载它。使用您的方法，您正在下载消息，并将其存储在/ tmp中，然后再将其推回至S3。这是数据的更多移动。

如果这些消息的大小较小，我建议您在Lambda函数中使用直接连接并使用insert语句，但这要慢得多，并且300k记录将花费太长时间。