Azure blob存储;派生列

时间:2017-04-21 07:45:00

标签: azure azure-storage-blobs

我正在尝试从Azure blob存储中的数据中的另一列创建派生列;关于我应该从哪里开始的任何指示。我正在处理的数据集是结构化的数据集。

input dataset= [col_a, col_b, col_c]
output_dataset= [col_a, col_a^2, col_a*3, col_b]

1 个答案:

答案 0 :(得分:0)

如果数据集的大小不是很大,您可以尝试以下步骤。

  1. 从Azure blob存储中读取所有数据。
  2. 将数据反序列化为数据集。
  3. 向数据集添加新列并计算此列的值。
  4. 反序列化数据集并将数据保存回Azure blob存储。
  5. 否则,您需要从Azure blob存储中读取数据集,计算新列的值并将其逐行保存到新位置,这取决于您如何将数据集存储在blob中。