print([x["keywords"].split(",") for i,x in df.iterrows() if not isinstance(x["keywords"], (int, float))])
print([x["tags"].split(",") for i,x in df.iterrows() if not isinstance(x["tags"], (int, float))])
print([x["rating"].split(",") for i,x in df.iterrows() if not isinstance(x["rating"], (int, float))])
print([x["rank"].split(",") for i,x in df.iterrows() if not isinstance(x["rank"], (int, float))])
当我将它们连接在一起时,我想将这四个语句合并为一个语句:
AttributeError:“ float”对象没有属性“ split”
features = [(x["entity_id"], x["tags"].split(","),x["rating"],
x["rank"],x["keywords"].split(",") )
for (index, x) in df.iterrows() if not isinstance(x, (int, float))]
答案 0 :(得分:0)
pd.DataFrame.iterrows
返回索引和pd.Series
对象的元组。因此isinstance(x, (int, float))
并没有做您想要的事情,因为pd.Series
对象不是int
或float
的子类。使用这种方法,您需要迭代pd.Series
对象中包含的各个值。
这是可能的,但我强烈建议不要这样做。实际上,我建议您完全避免使用iterrows
,因为它会丢失所有矢量化功能,这是Pandas的主要优点之一。
这是使用pd.DataFrame.mask
和NumPy数组的解决方案:
df = pd.DataFrame({'entity_id': ['SomeId', 3124123, 'SomeOtherId', 314324],
'tags': ['Tag1,Tag2', None, 'Tag4', 'Tag5,Tag6,Tag7'],
'rating': [5.0, 'SomeRating', 'SomeOtherRating', np.nan],
'rank': ['SomeRank', 2, np.nan, 4],
'keywords': ['key1', 'key2,key3', 'key4', 'key5']})
df2 = df.mask(df.apply(pd.to_numeric, errors='coerce').notnull() | df.isnull(), None)
for col in ['tags', 'keywords']:
df2[col] = df2[col].str.split(',')
col_order = ['entity_id', 'tags', 'rating', 'rank', 'keywords']
res = [list(filter(None, x)) for x in df2[col_order].values.tolist()]
结果
print(res)
[['SomeId', ['Tag1', 'Tag2'], 'SomeRank', ['key1']],
['SomeRating', ['key2', 'key3']],
['SomeOtherId', ['Tag4'], 'SomeOtherRating', ['key4']],
[['Tag5', 'Tag6', 'Tag7'], ['key5']]]
作为评论,这很混乱。最好是确定一个 consistent 结构,而不是这种类型的混合数据类型结构并根据类型进行过滤。