根据位数拆分pandas dataframe列

时间:2016-07-13 16:30:06

标签: python pandas dataframe data-manipulation

我有一个pandas数据框,它有两列key和value,值总是由一个8位数字组成,如

>df1
key value
10  10000100
20  10000000
30  10100000
40  11110000

现在我需要取值列并将其拆分为现有的数字,这样我的结果就是一个新的数据框

>df_res
key 0 1 2 3 4 5 6 7
10  1 0 0 0 0 1 0 0
20  1 0 0 0 0 0 0 0
30  1 0 1 0 0 0 0 0
40  1 1 1 1 0 0 0 0

我无法改变输入数据格式,我认为最传统的事情是将值转换为字符串并循环遍历每个数字字符并将其放入列表中,但是我正在寻找更优雅,更快速的东西,请帮助。

编辑:输入不在字符串中,它是整数。

4 个答案:

答案 0 :(得分:9)

这应该有效:

df.value.astype(str).apply(list).apply(pd.Series).astype(int)

enter image description here

答案 1 :(得分:3)

假设您的输入存储为字符串并且所有输入都具有相同的长度(8,如所示),则以下工作:

gulp.task('start-server', ['build', 'watch'], function (cb) {
    if(!started){
        exec('node dist/server.js', {maxBuffer: 5000*1024}, function (err, stdout, stderr) {
        console.log(stdout);
        console.log(stderr);
        cb(err);
        started = true;
      });
    }
});

答案 2 :(得分:3)

一种方法可能是 -

arr = df.value.values.astype('S8')
df = pd.DataFrame(np.fromstring(arr, dtype=np.uint8).reshape(-1,8)-48)

示例运行 -

In [58]: df
Out[58]: 
   key     value
0   10  10000100
1   20  10000000
2   30  10100000
3   40  11110000

In [59]: arr = df.value.values.astype('S8')

In [60]: pd.DataFrame(np.fromstring(arr, dtype=np.uint8).reshape(-1,8)-48)
Out[60]: 
   0  1  2  3  4  5  6  7
0  1  0  0  0  0  1  0  0
1  1  0  0  0  0  0  0  0
2  1  0  1  0  0  0  0  0
3  1  1  1  1  0  0  0  0

答案 3 :(得分:2)

矢量化版本将是:

df['value'].astype(str).str.join(' ').str.split(' ', expand=True)

首先在字符之间引入空格然后分割。它只是一个能够使用str.split的解决方法(可能没有必要,不确定)。但速度要快得多:

df = pd.DataFrame({'value': np.random.randint(10**7, 10**8, 10**4)})

%timeit df['value'].astype(str).str.join(' ').str.split(' ', expand=True)
10 loops, best of 3: 25.5 ms per loop

%timeit df.value.astype(str).apply(list).apply(pd.Series).astype(int)
1 loop, best of 3: 1.27 s per loop

%timeit df['value'].apply(lambda x: pd.Series(list(str(x)),index=range(8)))
1 loop, best of 3: 1.33 s per loop


%%timeit
arr = df.value.values.astype('S8')
pd.DataFrame(np.fromstring(arr, dtype=np.uint8).reshape(-1,8)-48)

1000 loops, best of 3: 1.14 ms per loop

更新:Divakar's solution似乎是最快的。