输入包含Nan与Tfidf矢量化器输出

时间:2018-11-21 10:24:48

标签: python regression vectorization

我对Tfidf Vectorizer的输出有问题,并且已经测试了其他主题中给出的许多解决方案,但没有任何效果。

我有一个包含两列的csv:一个包含...文本和列分数的列测试。 而且我希望能够根据我将要输入的文字来预测新分数。 我认为更好的解决方案是使用基于tfidf分析的线性回归。

我的代码如下:

datas = pandas.read_csv('Data/gucci-account- 
prediction.csv',delimiter=';')
datas['score'] = datas['retweets'] + datas['likes']
import re

def tokenizer(text):
    if text:
        result = re.findall('[a-z]{2,}', text.lower())
    else:
        result = []
    return result

X = datas['text'].values
y = datas['score'].values
vect = TfidfVectorizer(tokenizer=tokenizer,stop_words='english',dtype=np.float32)
X_train = vect.fit_transform(X)
lr = Ridge(alpha=1.0)
lr.fit(X_train,y)

我有以下错误:输入包含NaN,无穷大或对于dtype('float64')而言太大的值。

我已经验证过,并且我的数据帧(矢量化之前)不包含nan值,所以我不明白为什么我的X矩阵会包含任何nan或无限值。

您有解决方案吗?谢谢

0 个答案:

没有答案