读取.dat文件时,熊猫列名称未排列

时间:2018-12-11 11:47:43

标签: python-3.x pandas

我正在阅读Wes McKinney的Python for Data Analysis 2nd Edition,在第二章中,他有几个示例,这些示例基于三个关于电影评论的.dat文件的合并。

我可以使三个数据文件中的两个工作(用户和评论),但第三个数据文件(电影标题)我不能工作,也无法弄清楚该怎么做。

代码如下:

mnames = ['movie_id', 'title', 'genres']
movies = pd.read_table('movies.dat',  sep = '::', header = None, engine = 'python', names = mnames)

print(movies[:5])

这是输出/问题的样子。似乎该文件未正确排列分隔符,并且我尝试重新创建该文件并将其与其他两个正常工作的文件进行比较,但它们看起来完全相同。 enter image description here

以下是来自here的示例数据:

1::Toy Story (1995)::Animation|Children's|Comedy
2::Jumanji (1995)::Adventure|Children's|Fantasy
3::Grumpier Old Men (1995)::Comedy|Romance
4::Waiting to Exhale (1995)::Comedy|Drama
5::Father of the Bride Part II (1995)::Comedy
6::Heat (1995)::Action|Crime|Thriller
7::Sabrina (1995)::Comedy|Romance
8::Tom and Huck (1995)::Adventure|Children's
9::Sudden Death (1995)::Action
10::GoldenEye (1995)::Action|Adventure|Thriller
11::American President, The (1995)::Comedy|Drama|Romance
12::Dracula: Dead and Loving It (1995)::Comedy|Horror
13::Balto (1995)::Animation|Children's
14::Nixon (1995)::Drama

我希望能够正确读取此文件,以便可以将其加入其他两个示例文件,并继续学习熊猫:)

1 个答案:

答案 0 :(得分:0)

尝试将encoding='UTF-16'添加到pd.read_table()

(对不起,声誉不足,无法添加评论。)