Question

我有3列：id，情感，评论。我创建了向量，然后将其放置在RandomForest中，以便对情绪进行预测。

在下一行： forest = forest.fit（trainDataVecs，train [“ sentiment”]）

我不断收到以下错误：错误是：ValueError：输入包含NaN，无穷大或对于dtype（'float32'）而言太大的值。

我在一个很小的示例文件中运行它，但是它拒绝在我的大型主文件中运行。我已经检查过，并且100％确信没有NULL条目。有些评论很长，我想必须做的是，评论长度在某处是个问题。

请帮助！

Answer 1

问题似乎出在读取数字列之一时。我建议您在从源中读取数据时，将类型更改为更精确的值，例如np.float64或更大的值，并删除如下所示的无效值：

# A is the vector you want to clean
A[~np.isnan(A)] = 0.0