标签: bigdata real-time random-forest
我有一个庞大的数据集,需要对它进行二进制分类。数据集中的某些要素是字符串,因此如果不转换为数字值就无法使用它们。之后,我尝试了 fit_transform 并应用了 RandomForest 并正常工作。 但是,我们正在实施一个实时系统,时间是一个大问题! fit_transform非常耗时。是否知道如何使用字符串值或其他库尽快将字符串转换为数字? 我也可以访问Spark,所以如果MLlib有什么可以帮助您的信息,请告诉我!