如何在LinearRegression sklearn中添加两个差异数据集(数组和csr矩阵)

时间:2019-06-14 22:44:03

标签: python scikit-learn linear-regression tfidfvectorizer

首先,对不起我的英语。我正在尝试对单词向量和另一个可变性进行线性回归

数据类似:

  
      
  1. 44 102 3一些文字
  2.   
  3. 70 55 40一些文字
  4.   
  5. 472 210652一些文本
  6.   
     

...

第一列是Y,其他列是x。 我通过TF-IDFVectorizer将文本转换为csr矩阵。然后用它拟合模型。 但是我不知道如何用csr矩阵和数字列表来拟合模型。

dataset = read_csv('test2.tsv',sep ='\t',error_bad_lines=False)
data = DataFrame(dataset, columns=['y','x1','x2','text'])
Y = data['y']
vectorizer = TfidfVectorizer(tokenizer=tokenizer,stop_words = stops)
X= vectorizer.fit_transform(data['text'])
x_train, x_test, y_train, y_test = train_test_split(X[:,], Y, test_size=0.3)
model = LinearRegression()
model.fit(x_train,y_train)

我需要一个线性回归模型,该模型可以分析文本和其他一些变量。

0 个答案:

没有答案