我正在对TMDB数据集进行一些数据处理,遇到了以下问题。
比方说,我下面有一个数据框:
import pandas as pd
import ast
df = pd.DataFrame({'rank': [1,2,3],
'belongs': [ "{'id': 1, 'name': 'Toy Story'}",
"{'id': 3, 'name': 'Grumpy Old Men'}",
np.nan
]})
print(df[df.belongs.notnull()])
依次运行命令时,会获得所需的专营权名称:
fran = df['belongs'].copy()
fran = fran[fran.notnull()]
fran = fran.apply(ast.literal_eval)
fran = fran.apply(lambda x: x['name'] if isinstance(x, dict) else np.nan)
fran = fran[fran.notnull()]
fran
0 Toy Story
1 Grumpy Old Men
如何将这些命令链接在一起?
我尝试过:
(df['belongs'].copy()
.apply( lambda x: x[x.notnull()])
.apply(ast.literal_eval)
.apply(lambda x: x['name'] if isinstance(x, dict) else np.nan)
.apply( lambda x: x[x.notnull()])
)
给出错误:
AttributeError: 'str' object has no attribute 'notnull'
我尝试将x更改为pd.Series(x),但是某些错误仍然存在。
如何链接给定的操作?
答案 0 :(得分:2)
一字串
df['belongs'].copy().loc[lambda x : x.notnull()].apply(ast.literal_eval).\
apply(lambda x: x['name'] if isinstance(x, dict) else np.nan)
Out[205]:
0 Toy Story
1 Grumpy Old Men
Name: belongs, dtype: object
对于特定的“不适用”
df['belongs'].copy().dropna()