Question

我们需要将存储在Azure数据湖存储中的一些大文件从嵌套的JSON转换为CSV。由于python模块pandas，除了标准模块之外，Azure数据湖分析中支持numpy，我相信它几乎可以使用python实现这一点。有没有人有python代码来实现这个目标？

来源格式：

{＆＃34;禄＆＃34;：＆＃34; TDM＆＃34;＆＃34;主题＆＃34;：＆＃34;位置＆＃34;＆＃34; LocMac＆＃34;：＆＃34;位置/ FE：7A：XX：XX：XX：XX＆＃34;＆＃34; SEQ＆＃34;：＆＃34; 296083773＆＃34;＆＃34;时间戳＆＃34;：1488986751，＆＃34; OP＆＃34;：＆＃34; OP_UPDATE＆＃34;＆＃34; topicSeq＆＃34;：＆＃34; 46478211＆＃34;＆＃34;的SourceID＆＃34;：＆＃34; AFBWmHSe＆＃ 34;，＆＃34;位置＆＃34; {＆＃34; staEthMac＆＃34; {＆＃34;地址＆＃34;：＆＃34; / XXXXX＆＃34;}＆＃34; staLocationX＆＃34 ;：1643.8915，＆＃34; staLocationY＆＃34;：571.04205＆＃34; ERRORLEVEL＆＃34;：1076，＆＃34;相关联的＆＃34;：0，＆＃34; campusId＆＃34;：＆＃34; n5THo6IINuOSVZ / cTidNVA ==＆＃34;＆＃34; buildingId＆＃34;：＆＃34; 7hY / XX ==＆＃34;＆＃34; floorId＆＃34;：＆＃34; XXXXXXXXXX + BYoo0A = =＆＃34;＆＃34; hashedStaEthMac＆＃34;：＆＃34; XXXX / pMVyK4Gu9qG6w =＆＃34;＆＃34; locAlgorithm＆＃34;：＆＃34; ALGORITHM_ESTIMATION＆＃34;＆＃34;单元＆＃34;：＆＃34; FEET＆＃34;}＆＃34; EventProcessedUtcTime＆＃34;：＆＃34; 2017-03-08T15：35：02.3847947Z＆＃34;＆＃34;的partitionid＆＃34; ：3，＆＃34; EventEnqueuedUtcTime＆＃34;：＆＃34; 2017-03-08T15：35：03.7510000Z＆＃34;＆＃34; IoTHub＆＃34; {＆＃34;的MessageId＆＃34;：空＆＃34;的correlationID＆＃34;：N ULL，＆＃34; ConnectionDeviceId＆＃34;：＆＃34;为XXXXX＆＃34;＆＃34; ConnectionDeviceGenerationId＆＃34;：＆＃34; 636243184116591838＆＃34;＆＃34; EnqueuedTime＆＃34;：＆＃34 ; 0001-01-01T00：00：00.0000000＆＃34;＆＃34;流ID＆＃34;：空}}

预期输出

TDM，位置，位置/ 80：7A：BF：D4：d6中：50,974851970,1490004475，OP_UPDATE，151002334，XXXXXXX，GHQ / 1NZQ，977.7259,638.8827,490,1，n5THo6IINuOSVZ / cTidNVA ==，7hY / jVh9NRqqxF6gbqT7Jw ==，LV / ZiQRQMS2wwKiKTvYNBQ ==，H5rrAD / jg1Fnkmo1Zmquau / Qn1U =，ALGORITHM_ESTIMATION，FEET

Answer 1

根据您的描述，根据我的理解，我认为您的关键需求是如何使用pandas / numpy软件包将存储在Azure Data Lake Store中的数据从JSON格式转换为CSV格式的CSV格式。所以我查看了你的源数据，并假设JSON中没有数组类型，然后我设计了下面的代码用于示例数据转换。

这是我的JSON格式对象字符串的示例代码。作为参考，我添加了一些注释来理解我的想法，关键是将flattern转换为结构{"A": 0, "B": {"C": 1}}的方法{。}}。

[["A", "B.C"], [0, 1]]

希望它有所帮助。

使用Python的U-SQL将Azure数据库存储中的JSON转换为CSV

1 个答案: