我希望在Pandas中清理该数据集,但不确定如何进行此操作。
我使用了一个json文件将其转换为csv,但是我仍然有其中包含字典类对象的行。标头始终是第一行。我正在尝试创建一个映射(当前-> 1,其他-> 0,空-> NaN)以执行回归和其他分析。
a列:
attributes_Alcohol
full_bar
无
啤酒和葡萄酒
我要创建带有标题的两列:
full_bar
1
NaN
0
(beer_and_wine的类似列,其行元素为:0,NaN,1)
b列:
attributes_Ambience
NaN
{'romantic': False, 'intimate': False, 'classy': False, 'hipster': False, 'touristy': False, 'trendy': False, 'upscale': False, 'casual': False}
浪漫,亲密,优雅,休闲的八个专栏。
列C:
类别
旅游,啤酒厂,比萨饼,餐馆,食品,酒店和旅游
鸡翅,汉堡包,餐饮,摊贩,烧烤,食品卡车
食品,餐厅,活动策划和服务
早餐和早午餐,餐厅,法国菜,三明治,咖啡馆
与上面的基本上相同,但是格式不同(逗号分隔,但不是列表形式)。
我大约有20万行,但出于对上帝的爱,我无法弄清楚该如何做:
我希望这是有道理的。 Here is the link to a sample csv to help understand better.