从数据帧准备json分层格式

时间:2019-02-01 09:17:28

标签: python json tree pyspark multiprocessing

我正在尝试将数据帧转换为json(类似分层树)格式。 我需要的所有列在每个类别下显示的记录百分比。我;在DAT下-共有3个类别(CT,OS,Eng),其子级和用户单击CT的一个子级,他将看到2个类别(OS,Eng)-CT被淘汰了。如果用户展开OS并单击OS子级之一,则他只会看到Eng(所有变量均已耗尽)。 根节点将根据输入的决定的。我已将DAT值输入为C。

输入数据框:

enter image description here

输出json:

enter image description here

enter image description here

我能够编写一个函数并递归调用它,它将按预期生成输出。但是准备json的时间随着每个变量的增加而爆炸。的方法我已经采取::

recur_func(df, filter_criteria):
    <filter out data from df based on filter_criteria>
    <for each of col in df>
        <do some calculation>
        <for each of vals in col>:
             json = <call recur_func(df, filter_criteria)>

使用10个变量和5个的唯一值在每个这些10个变量和200分000的记录,上述方法正在超过15分钟。 有人可以建议其他可以花费更少时间的方法,例如递归多处理/多线程吗?

0 个答案:

没有答案