Spark从jsons到新表的数据转换

时间:2016-11-15 12:30:19

标签: json apache-spark

我有一个火花表,如果ID和json路径包含很多。

 var workspaceInfo = Workstation.Current.GetLocalWorkspaceInfo(modifiedPath);

    TfsTeamProjectCollection tpc = new TfsTeamProjectCollection(workspaceInfo.ServerUri);
    VersionControlServer vcServer = tpc.GetService<VersionControlServer>();


    using (var server = new TfsTeamProjectCollection(workspaceInfo.ServerUri))
    {
        var workspace = workspaceInfo.GetWorkspace(server);

        QueryHistoryParameters historyParams = new QueryHistoryParameters(modifiedPath, RecursionType.Full);

        historyParams.MaxResults = 1;

        Changeset changeset = vcServer.QueryHistory(historyParams).FirstOrDefault();

        string theUser = changeset.CommitterDisplayName;

        MessageBox.Show(theUser);
    }

我必须遍历这个表,解析所有的jsons,我需要创建一个像这样的新表

    +----------------------+
    |    ID |     Path     |
    +----------------------+
    |    1  | "/test.json" |
    +----------------------+

我可以解析一个json。如何解析所有jsons并将数据合并到上面的表中?

更新:在此之后:

    +----------------------------------------------+
    | ID | ParsedJson.Column1 | ParsedJson.Column2 |
    +----------------------------------------------+
    | 1  | data 1             | data2              |
    +----------------------------------------------+

我现在有一个数组[媒体]。 Dataframe内容是解析的json。所以我的问题是如何将这个Object数组转换为类似上面的模式的DataFrame?

0 个答案:

没有答案