在Pandas中清理此数据集?

时间:2018-10-25 10:30:15

标签: python pandas data-cleaning

我希望在Pandas中清理该数据集,但不确定如何进行此操作。

我使用了一个json文件将其转换为csv,但是我仍然有其中包含字典类对象的行。标头始终是第一行。我正在尝试创建一个映射(当前-> 1,其他-> 0,空-> NaN)以执行回归和其他分析。

a列:

attributes_Alcohol

full_bar

啤酒和葡萄酒

我要创建带有标题的两列:

full_bar

1

NaN

0

(beer_and_wine的类似列,其行元素为:0,NaN,1)

b列:

attributes_Ambience

NaN

{'romantic': False, 'intimate': False, 'classy': False, 'hipster': False, 'touristy': False, 'trendy': False, 'upscale': False, 'casual': False}

浪漫,亲密,优雅,休闲的八个专栏。

列C:

类别

旅游,啤酒厂,比萨饼,餐馆,食品,酒店和旅游

鸡翅,汉堡包,餐饮,摊贩,烧烤,食品卡车

食品,餐厅,活动策划和服务

早餐和早午餐,餐厅,法国菜,三明治,咖啡馆

与上面的基本上相同,但是格式不同(逗号分隔,但不是列表形式)。

我大约有20万行,但出于对上帝的爱,我无法弄清楚该如何做:

  1. 创建正确的列标题
  2. 将这些字符串(Python认为它们是浮点型的-可能是因为第一行为空,而不是NaN)在新创建的列中转换为正确的True,False或NaN。

我希望这是有道理的。 Here is the link to a sample csv to help understand better.

0 个答案:

没有答案