首先,对不起我的英语。我正在尝试对单词向量和另一个可变性进行线性回归
数据类似:
- 44 102 3一些文字
- 70 55 40一些文字
- 472 210652一些文本
...
第一列是Y,其他列是x。 我通过TF-IDFVectorizer将文本转换为csr矩阵。然后用它拟合模型。 但是我不知道如何用csr矩阵和数字列表来拟合模型。
dataset = read_csv('test2.tsv',sep ='\t',error_bad_lines=False)
data = DataFrame(dataset, columns=['y','x1','x2','text'])
Y = data['y']
vectorizer = TfidfVectorizer(tokenizer=tokenizer,stop_words = stops)
X= vectorizer.fit_transform(data['text'])
x_train, x_test, y_train, y_test = train_test_split(X[:,], Y, test_size=0.3)
model = LinearRegression()
model.fit(x_train,y_train)
我需要一个线性回归模型,该模型可以分析文本和其他一些变量。