应用错误收集

首先，对不起我的英语。我正在尝试对单词向量和另一个可变性进行线性回归

数据类似：

44 102 3一些文字

70 55 40一些文字

472 210652一些文本


...

第一列是Y，其他列是x。我通过TF-IDFVectorizer将文本转换为csr矩阵。然后用它拟合模型。但是我不知道如何用csr矩阵和数字列表来拟合模型。

dataset = read_csv('test2.tsv',sep ='\t',error_bad_lines=False)
data = DataFrame(dataset, columns=['y','x1','x2','text'])
Y = data['y']
vectorizer = TfidfVectorizer(tokenizer=tokenizer,stop_words = stops)
X= vectorizer.fit_transform(data['text'])
x_train, x_test, y_train, y_test = train_test_split(X[:,], Y, test_size=0.3)
model = LinearRegression()
model.fit(x_train,y_train)

我需要一个线性回归模型，该模型可以分析文本和其他一些变量。

如何在LinearRegression sklearn中添加两个差异数据集（数组和csr矩阵）

0 个答案: