我正在浏览ThinkStats这本书。 http://greenteapress.com/thinkstats/nsfg_data.html
我更喜欢和大熊猫一起工作,因为我想加强我的技能,但我很难弄清楚如何打开这个文件。
http://greenteapress.com/thinkstats/nsfg_data.html
通常的pd.read_csv(文件名)似乎不起作用。 我也在阅读本书提供的代码,但这对我来说有点困难。
答案 0 :(得分:1)
如果没有考虑数据集本身,pandas read_csv函数将无法在此数据集上运行。实际上,它既不是逗号分隔值也不是空格分隔格式。
相反,它是一种自制格式,其中每行的字段数不存在,这是另一个问题。此外,值之间的空格数不是常数,这是另一个问题。
为了更好地理解数据文件的格式,我建议您从作者那里获取代码。该链接在书中提供,但它在http://greenteapress.com/thinkstats/,并与提供的代码一起使用以确定使用的格式
如果您拥有数据文件,则可以使用调查模块
import survey
preg = survey.Pregancies()
pre.ReadRecors(".")