我有3列:id,情感,评论。我创建了向量,然后将其放置在RandomForest中,以便对情绪进行预测。
在下一行: forest = forest.fit(trainDataVecs,train [“ sentiment”])
我不断收到以下错误: 错误是:ValueError:输入包含NaN,无穷大或对于dtype('float32')而言太大的值。
我在一个很小的示例文件中运行它,但是它拒绝在我的大型主文件中运行。我已经检查过,并且100%确信没有NULL条目。有些评论很长,我想必须做的是,评论长度在某处是个问题。
请帮助!
答案 0 :(得分:0)
问题似乎出在读取数字列之一时。我建议您在从源中读取数据时,将类型更改为更精确的值,例如np.float64
或更大的值,并删除如下所示的无效值:
# A is the vector you want to clean
A[~np.isnan(A)] = 0.0