使用给定数据集打印具有NaN值的表,然后使用Pandas或Recsys使用预测值打印

时间:2017-06-26 11:10:25

标签: python csv pandas dataframe

我正在使用100k电影镜头dataset,我需要使用NaN值打印整个u.data表,并再次使用预测值打印。 Pandas或Recsys是合适的,其他人也欢迎。

data = pd.read_csv('ml-100k/u.data', sep='\t')
print data

上述代码不提供必要的输出,因为它只打印第一个和最后30个记录。而且,我需要它。格式

UserID <MovieID>1   <MovieID>2 <MovieID>3
    1   <Rating>5         NaN          3 
    2        NaN            2          1

我已经完成了

  1. This 1 SF问题类似
  2. This 2来自AnalyticsVidhya的示例

1 个答案:

答案 0 :(得分:0)

我不确定这是不是你问的问题,但是:

要打印列名并将UserID作为索引,请使用:

data = pd.read_csv('ml-100k/u.data', sep='\t', names=['UserID','MovieID_1','MovieID_2','MovieID_3']).set_index('UserID')

在打印整个数据框时,有一个类似的问题here,建议使用pandas中的option_context:

with pd.option_context('display.max_rows', None, 'display.max_columns', None):
    print(data)