AWS Sagemaker BlazingText多个培训文件

时间:2019-06-12 20:02:43

标签: machine-learning amazon-sagemaker

尝试找出是否可以对Amazon Sagemaker BlazingText中的数据集使用多个文件。

我正在尝试在“文本分类”模式下使用它。

似乎不可能,当然不是在File模式下,但是想知道Pipe模式是否支持它。我不想将所有训练数据都保存在1个文件中,因为如果它是由EMR集群生成的,则以后需要将其合并,这很笨拙。

谢谢!

1 个答案:

答案 0 :(得分:1)

您说对了,文件模式不支持多个文件(https://docs.aws.amazon.com/sagemaker/latest/dg/blazingtext.html)。

从理论上讲,管道模式可以工作,但有一些警告:

{"source":"linux ready for prime time ", "label":1}
{"source":"bowled by the slower one ", "label":2}

然后必须将_ AttributeNames_参数传递给createTrainingJob SageMaker API(在上面的链接中进行了全部解释)。

  • 使用增强清单,目前仅支持一个标签。

要使用管道模式,您将需要修改EMR作业以生成增强清单格式,并且每个句子只能使用一个标签。

在此阶段,将您的EMR作业生成的文件合并为单个文件似乎是最好的选择。