我有一个Pandas系列字符串列表:
0 [slim, waist, man]
1 [slim, waistline]
2 [santa]
如您所见,列表因长度而异。我想要一种有效的方法将其折叠成一个系列
0 slim
1 waist
2 man
3 slim
4 waistline
5 santa
我知道我可以使用
分解列表series_name.split(' ')
但是我很难将这些字符串放回一个列表中。
谢谢!
答案 0 :(得分:29)
这是一个仅使用pandas函数的简单方法:
import pandas as pd
s = pd.Series([
['slim', 'waist', 'man'],
['slim', 'waistline'],
['santa']])
然后
s.apply(pd.Series).stack().reset_index(drop=True)
给出所需的输出。在某些情况下,您可能希望保存原始索引并添加第二级以索引嵌套元素,例如
0 0 slim
1 waist
2 man
1 0 slim
1 waistline
2 0 santa
如果这是你想要的,只需从链中省略.reset_index(drop=True)
。
答案 1 :(得分:7)
你基本上只想在这里展平嵌套列表。
你应该能够迭代系列的元素:
slist =[]
for x in series:
slist.extend(x)
或更清晰(但更难理解)列表理解:
slist = [st for row in s for st in row]
答案 2 :(得分:4)
您可以尝试使用itertools.chain简化列表:
In [70]: from itertools import chain
In [71]: import pandas as pnd
In [72]: s = pnd.Series([['slim', 'waist', 'man'], ['slim', 'waistline'], ['santa']])
In [73]: s
Out[73]:
0 [slim, waist, man]
1 [slim, waistline]
2 [santa]
dtype: object
In [74]: new_s = pnd.Series(list(chain(*s.values)))
In [75]: new_s
Out[75]:
0 slim
1 waist
2 man
3 slim
4 waistline
5 santa
dtype: object
答案 3 :(得分:4)
在熊猫0.25.0
版中,出现了一种针对series和dataframes的新方法'explode'。较旧的版本没有这种方法。
它有助于建立所需的结果。
例如,您有这样的系列:
import pandas as pd
s = pd.Series([
['slim', 'waist', 'man'],
['slim', 'waistline'],
['santa']])
然后您就可以使用
s.explode()
要获得这样的结果:
0 slim
0 waist
0 man
1 slim
1 waistline
2 santa
对于数据框:
df = pd.DataFrame({
's': pd.Series([
['slim', 'waist', 'man'],
['slim', 'waistline'],
['santa']
]),
'a': 1
})
您将拥有这样的DataFrame:
s a
0 [slim, waist, man] 1
1 [slim, waistline] 1
2 [santa] 1
正在s
列上爆炸:
df.explode('s')
会给你这样的结果:
s a
0 slim 1
0 waist 1
0 man 1
1 slim 1
1 waistline 1
2 santa 1
答案 4 :(得分:3)
series_name.sum()
完全满足您的需求。确保它是一系列列表,否则您的值将被串联(如果是字符串)或添加(如果是int)
答案 5 :(得分:0)
您可以使用下面的列表连接运算符 -
lst1 = ['hello','world']
lst2 = ['bye','world']
newlst = lst1 + lst2
print(newlst)
>> ['hello','world','bye','world']
或者您可以使用list.extend()
功能,如下所示 -
lst1 = ['hello','world']
lst2 = ['bye','world']
lst1.extend(lst2)
print(lst1)
>> ['hello', 'world', 'bye', 'world']
使用extend
函数的好处是它可以在多种类型上工作,而concatenation
运算符只有在LHS和RHS都是列表的情况下才能工作。
extend
函数的其他示例 -
lst1.extend(('Bye','Bye'))
>> ['hello', 'world', 'Bye', 'Bye']
答案 6 :(得分:0)
可以使用此功能进行平整和不平整
def flatten(df, col):
col_flat = pd.DataFrame([[i, x] for i, y in df[col].apply(list).iteritems() for x in y], columns=['I', col])
col_flat = col_flat.set_index('I')
df = df.drop(col, 1)
df = df.merge(col_flat, left_index=True, right_index=True)
return df
展平:
def unflatten(flat_df, col):
flat_df.groupby(level=0).agg({**{c:'first' for c in flat_df.columns}, col: list})
展开后,除了列顺序外,我们得到相同的数据框:
(df.sort_index(axis=1) == unflatten(flatten(df)).sort_index(axis=1)).all().all()
>> True
答案 7 :(得分:0)
您也可以尝试:
combined = []
for i in s.index:
combined = combined + s.iloc[i]
print(combined)
s = pd.Series(combined)
print(s)
输出:
['slim', 'waist', 'man', 'slim', 'waistline', 'santa']
0 slim
1 waist
2 man
3 slim
4 waistline
5 santa
dtype: object
答案 8 :(得分:0)
如果您的pandas
版本太旧而无法使用series_name.explode()
,那么它也应该可以使用:
from itertools import chain
pd.Series(
chain.from_iterable(
value
for i, value
in series_name.iteritems()
)
)