我正在尝试使用WesMcKinney的“Python for Data analysis”来学习数据分析。
有.dat
个文件包含以下数据:
1::F::1::10::48067
2::M::56::16::70072
3::M::25::15::55117
4::M::45::7::02460
我正在尝试使用以下方法导入它们:
unames=['user_id', 'gender', 'age', 'occupation', 'zip']
users = pd.read_table('D:/INSOFE/Python_practice/users.dat', sep='::', header=None,names=unames,engine='python')
但是,它显示了空值
请让我知道我做错了什么。
答案 0 :(得分:0)
read_table
方法需要相对干净的数据;如果你只是保存了web page containing the table(参见澄清评论),你最终会得到一个充满HTML的文件,大熊猫不知道该怎么做。
相反,您需要获取文件的原始内容。原则上,您只需将6040行从GitHub复制到您喜欢的文本编辑器中,并将内容保存为users.dat
。
通过提供raw data的视图,GitHub让您的生活更加简单。
这样,如果您选择保存文件,大多数浏览器(包括Firefox)都会生成只有数据的正确users.dat
。 wget或curl等命令行工具可让您无需使用成熟的浏览器即可获取相同的数据。