Azure Data Lake store-将JSON转换为CSV

时间:2017-03-21 06:19:19

标签: azure azure-data-lake

我们在Azure Data lake商店中拥有大小约为100 GB的JSON文件。我们需要将它们转换为CSV文件并保存到同一天蓝色数据湖商店中的不同文件夹。有哪些可用选项?

2 个答案:

答案 0 :(得分:2)

你有几个选择。这通常是一个简单的两步过程:提取和输出。

一个。 您可以运行ADLA / U-SQL作业来执行此操作。以下是U-SQL中JSON提取器的示例 https://github.com/Azure/usql/tree/master/Examples/DataFormats/Microsoft.Analytics.Samples.Formats

B中。 另一种选择是创建一个HDInsight集群来转换数据。您可以使用您选择的任何应用程序。以下是在PIG中执行此操作的人的示例:https://acadgild.com/blog/converting-json-into-csv-using-pig/

答案 1 :(得分:0)

我已经尝试过使用Azure数据工厂,并且它直接进行零编码。源和接收器都是ADLS。管道中没有任何改变,只需要简单的一对一映射。我们并不关心性能,因为它对我们来说是一个批量工作,下面是对性能的快速统计。

> Data Read: 42.68 GB Data Written: 12.97 GB Data volume: 42.68 GB Rows:
> 54520950 Throughput: 3.97 MB/s Billed duration for data movement:
> 03:03:41