我的来源是SQL Server,我正在使用SSIS将数据导出到S3存储桶,但是现在我的要求是将文件作为拼花文件格式发送。
你们能提供一些有关如何实现这一目标的线索吗?
谢谢, Ven
答案 0 :(得分:0)
对于绊倒这个答案的人们来说,Apache Parquet是一个项目,指定Hadoop和其他Apache项目采用的列式文件格式。
除非找到自定义组件或编写一些.NET代码来执行此操作,否则您将无法将数据从SQL Server导出到Parquet文件。 KingswaySoft's SSIS Big Data Components可能提供一种这样的自定义组件,但我并不熟悉。
如果要导出到Azure,则有两个选择:
使用Flexible File Destination组件(Azure功能包的一部分),该组件将导出到Azure Blob或Data Lake Gen2存储中托管的Parquet文件。
利用PolyBase,一种SQL Server功能。它使您可以通过external table feature导出到Parquet文件。但是,该文件必须托管在here提及的位置。不幸的是S3不是一个选择。
如果是我,我会将数据作为CSV文件移动到S3,然后使用Athena将CSV文件转换为Pqrquet。这里有一篇漂亮的文章讲述了雅典娜的故事:
https://www.cloudforecast.io/blog/Athena-to-transform-CSV-to-Parquet/
网络,您需要花一些钱,发挥创意,切换到Azure或在AWS中进行转换。