基于Pandas中的管道分隔列创建多个新列

时间:2017-12-28 15:24:02

标签: python pandas

我有一个带有管道分隔列的pandas数据框,该列具有任意数量的元素,称为Parts。这些管道字符串中的元素数量从0到10不等。所有管道字符串中包含的唯一元素的数量并不比行数小很多(这使得我无法手动指定所有管道字符串的数量)创建新列。)

对于每一行,我想创建一个新列,作为管道分隔列表的每个元素的指示符变量。例如,如果行

... 'Parts' ...

... '12|34|56'

应该转换为

... 'Part_12' 'Part_34' 'Part_56' ...

... 1 1 1 ...

因为它们是很多独特的部分,所以这些列显然是稀疏的 - 大多数是零,因为每行只包含一小部分独特的部分。

我没有找到任何不需要手动指定列的方法(例如,Pandas Dataframe: split column into multiple columns, right-align inconsistent cell entries)。 我也看过大熊猫的融化,但我认为这不是合适的工具。

我知道如何解决它的方法是将原始CSV管道传输到另一个python脚本并以char-by-char为基础进行处理,但我需要在现有脚本中工作,因为我将处理数百个以这种方式的CSV。

以下是数据的更好说明

ID YEAR AMT PARTZ

1202 2007 99.34

9321 1988 1012.99 2031|8942

2342 2012 381.22 1939|8321|Amx3

1 个答案:

答案 0 :(得分:2)

您可以使用get_dummiesadd_prefix

df.Parts.str.get_dummies().add_prefix('Part_')

输出:

   Part_12  Part_34  Part_56
0        1        1        1

编辑注释并计算重复项。

df = pd.DataFrame({'Parts':['12|34|56|12']}, index=[0])
pd.get_dummies(df.Parts.str.split('|',expand=True).stack()).sum(level=0).add_prefix('Part_')

输出:

   Part_12  Part_34  Part_56
0        2        1        1