用Pandas打开NSFG数据(来自ThinkStats书)

时间:2014-06-11 18:41:40

标签: python pandas

我正在浏览ThinkStats这本书。 http://greenteapress.com/thinkstats/nsfg_data.html

我更喜欢和大熊猫一起工作,因为我想加强我的技能,但我很难弄清楚如何打开这个文件。

http://greenteapress.com/thinkstats/nsfg_data.html

通常的pd.read_csv(文件名)似乎不起作用。 我也在阅读本书提供的代码,但这对我来说有点困难。

1 个答案:

答案 0 :(得分:1)

如果没有考虑数据集本身,pandas read_csv函数将无法在此数据集上运行。实际上,它既不是逗号分隔值也不是空格分隔格式。

相反,它是一种自制格式,其中每行的字段数不存在,这是另一个问题。此外,值之间的空格数不是常数,这是另一个问题。

为了更好地理解数据文件的格式,我建议您从作者那里获取代码。该链接在书中提供,但它在http://greenteapress.com/thinkstats/,并与提供的代码一起使用以确定使用的格式

如果您拥有数据文件,则可以使用调查模块

import survey
preg = survey.Pregancies()
pre.ReadRecors(".")