.dat的pd.read_table填充空值

时间:2018-03-17 12:42:41

标签: python pandas data-analysis

我正在尝试使用WesMcKinney的“Python for Data analysis”来学习数据分析。

.dat个文件包含以下数据:

1::F::1::10::48067
2::M::56::16::70072
3::M::25::15::55117
4::M::45::7::02460

我正在尝试使用以下方法导入它们:

unames=['user_id', 'gender', 'age', 'occupation', 'zip']
users = pd.read_table('D:/INSOFE/Python_practice/users.dat', sep='::', header=None,names=unames,engine='python')

但是,它显示了空值

enter image description here

请让我知道我做错了什么。

1 个答案:

答案 0 :(得分:0)

read_table方法需要相对干净的数据;如果你只是保存了web page containing the table(参见澄清评论),你最终会得到一个充满HTML的文件,大熊猫不知道该怎么做。

相反,您需要获取文件的原始内容。原则上,您只需将6040行从GitHub复制到您喜欢的文本编辑器中,并将内容保存为users.dat

通过提供raw data的视图,GitHub让您的生活更加简单。

How to view "Raw" data in GitHub

这样,如果您选择保存文件,大多数浏览器(包括Firefox)都会生成只有数据的正确users.datwgetcurl等命令行工具可让您无需使用成熟的浏览器即可获取相同的数据。