Question

我正在尝试使用WesMcKinney的“Python for Data analysis”来学习数据分析。

有.dat个文件包含以下数据：

1::F::1::10::48067
2::M::56::16::70072
3::M::25::15::55117
4::M::45::7::02460

我正在尝试使用以下方法导入它们：

unames=['user_id', 'gender', 'age', 'occupation', 'zip']
users = pd.read_table('D:/INSOFE/Python_practice/users.dat', sep='::', header=None,names=unames,engine='python')

但是，它显示了空值

请让我知道我做错了什么。

Answer 1

read_table方法需要相对干净的数据;如果你只是保存了web page containing the table（参见澄清评论），你最终会得到一个充满HTML的文件，大熊猫不知道该怎么做。

相反，您需要获取文件的原始内容。原则上，您只需将6040行从GitHub复制到您喜欢的文本编辑器中，并将内容保存为users.dat。

通过提供raw data的视图，GitHub让您的生活更加简单。

这样，如果您选择保存文件，大多数浏览器（包括Firefox）都会生成只有数据的正确users.dat。 wget或curl等命令行工具可让您无需使用成熟的浏览器即可获取相同的数据。

.dat的pd.read_table填充空值

1 个答案: