缺少数据预测

时间:2017-01-24 10:44:59

标签: python-3.x machine-learning prediction

我有一个jester数据,这个数据有100部电影,它的评论由24983用户提供,数据有很多缺失的数据。我的工作是预测它。

我想从决策树开始,

我想,首先我会选择第一列数据(它有第一部电影评论),然后我将从数据中删除第一列。然后我会适应它们,最后我会找到第一列的预测概率(从数据中删除)

我正在使用Python

import numpy as np
import pandas as pd
from sklearn.preprocessing import Imputer
from sklearn.preprocessing import PolynomialFeatures
from sklearn.ensemble import RandomForestClassifier
df = pd.read_excel(input_file, header=None)
matrix = df.as_matrix()
imp = Imputer(missing_values=99, strategy='mean', axis=0)
imp.fit(matrix)
matrix= imp.transform(matrix)
train_data = matrix[:,:90] #train data (train data has 90 column)
test_data = matrix[:,90:] #%10 test data (test data has 10 column)
array2 = train_data.copy()
column = array2[:,0] # 0. column should be delete
array2 = np.delete(array2,0,axis=1) # 0. column should be select
clf = RandomForestClassifier(n_estimators=25) 
clf.fit(array2.astype(int), column.astype(int))
clf_probs = clf.predict_proba(column)

我上次给出的错误 - > ValueError: Number of features of the model must match the input. Model n_features is 89 and input n_features is 24983

我必须像我告诉你的那样预测列(代码上方)

我该怎么办?我真的需要帮助。

0 个答案:

没有答案