XGBoost模型的CSV字符串数据格式

时间:2018-09-28 00:12:50

标签: amazon-sagemaker

我是Sagemaker的新手,在查找将CSV格式的String数据导入XGBoost的示例时遇到了麻烦。

具体地说,它可以处理外来字符(如果是,则使用什么编码)?如何知道要进行预测的列(变量)?

谢谢。

1 个答案:

答案 0 :(得分:2)

要在Csv输入中使用SageMaker XGBoost,您需要在每一行中以label, feature_1, feature_2, ...格式准备数据集。

XGBoost只能将数字值作为输入数据处理。如果输入数据中包含外来字符,则需要先对其进行编码,然后再将其提供给XGBoost。根据数据集,您应该使用对数据最有意义的编码方法。

对于csv输入,SageMaker XGBoost始终假定第一列为标签/目标。