Question

我对Tfidf Vectorizer的输出有问题，并且已经测试了其他主题中给出的许多解决方案，但没有任何效果。

我有一个包含两列的csv：一个包含...文本和列分数的列测试。而且我希望能够根据我将要输入的文字来预测新分数。我认为更好的解决方案是使用基于tfidf分析的线性回归。

我的代码如下：

datas = pandas.read_csv('Data/gucci-account- 
prediction.csv',delimiter=';')
datas['score'] = datas['retweets'] + datas['likes']
import re

def tokenizer(text):
    if text:
        result = re.findall('[a-z]{2,}', text.lower())
    else:
        result = []
    return result

X = datas['text'].values
y = datas['score'].values
vect = TfidfVectorizer(tokenizer=tokenizer,stop_words='english',dtype=np.float32)
X_train = vect.fit_transform(X)
lr = Ridge(alpha=1.0)
lr.fit(X_train,y)

我有以下错误：输入包含NaN，无穷大或对于dtype（'float64'）而言太大的值。

我已经验证过，并且我的数据帧（矢量化之前）不包含nan值，所以我不明白为什么我的X矩阵会包含任何nan或无限值。

您有解决方案吗？谢谢

输入包含Nan与Tfidf矢量化器输出

0 个答案: