使用LDA模型运行Sagemaker批量转换时出错

时间:2019-04-02 16:18:45

标签: python amazon-web-services amazon-sagemaker protobuf-c

我已经用sagemaker成功地训练了LDA模型,我已经能够建立一个推理API,但是它限制了我一次可以查询多少条记录。

我需要获取大文件的预测,并且一直在尝试使用“批量转换”,但是遇到了障碍。

我的输入日期为application / x-recordio-protobuf内容类型,代码如下:

# Initialize the transformer object
transformer =sagemaker.transformer.Transformer(
    base_transform_job_name='Batch-Transform',
    model_name=model_name,
    instance_count=1,
    instance_type='ml.c4.xlarge',
    output_path=output_location,
    max_payload=20,
    strategy='MultiRecord'
    )
# Start a transform job
transformer.transform(input_location, content_type='application/x-recordio-protobuf',split_type="RecordIO")
# Then wait until the transform job has completed
transformer.wait()

# Fetch validation result 
s3_client.download_file(bucket, 'topic_model_batch_transform/output/batch_tansform_part0.pbr.out', 'batch_tansform-result')
with open('batch_tansform-result') as f:
    results = f.readlines()   
print("Sample transform result: {}".format(results[0]))

我将输入文件分成10个文件,每个文件的大小约为19MB。我首先尝试在单个块上运行,因此总共19MB。我尝试过更改策略,尝试使用SingleRecord。我也尝试了不同的split_types,也尝试了None和“ Line”。

我已经阅读了文档,但是不清楚我还应该尝试什么,错误消息也很不清楚。

2019-04-02T15:49:47.617:[sagemaker logs]: MaxConcurrentTransforms=1, MaxPayloadInMB=20, BatchStrategy=MULTI_RECORD
#011at java.lang.Thread.run(Thread.java:748)2019-04-02T15:49:48.035:[sagemaker logs]: du-sagemaker/data/batch_transform/batch_tansform_part0.pbr: Bad HTTP status returned from invoke: 413
2019-04-02T15:49:48.036:[sagemaker logs]: du-sagemaker/data/batch_transform/batch_tansform_part0.pbr:
2019-04-02T15:49:48.036:[sagemaker logs]: du-sagemaker/data/batch_transform/batch_tansform_part0.pbr: Message:
2019-04-02T15:49:48.036:[sagemaker logs]: du-sagemaker/data/batch_transform/batch_tansform_part0.pbr: <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2 Final//EN">
2019-04-02T15:49:48.036:[sagemaker logs]: du-sagemaker/data/batch_transform/batch_tansform_part0.pbr: <title>413 Request Entity Too Large</title>
2019-04-02T15:49:48.036:[sagemaker logs]: du-sagemaker/data/batch_transform/batch_tansform_part0.pbr: <h1>Request Entity Too Large</h1>
2019-04-02T15:49:48.036:[sagemaker logs]: du-sagemaker/data/batch_transform/batch_tansform_part0.pbr: <p>The data value transmitted exceeds the capacity limit.</p>

上面是我用上述配置获得的最后一个,在此之前,我还收到了400个HTTP错误代码。

任何帮助或指针将不胜感激!谢谢

2 个答案:

答案 0 :(得分:1)

虽然Batch Transform平台支持灵活的有效负载限制(通过MaxPayloadInMB),但是许多算法都设置了更严格的内部限制。对于SageMaker内置的LDA算法,这是正确的,它根据其内部配置拒绝“大”请求。

您在日志中看到的错误恰恰说明了这一点:Batch Transform客户端尝试发送最大20MB的请求,但是LDA算法服务器拒绝了错误代码为413 (Request Entity Too Large)的请求。

使用SageMaker内置算法容器或任何非您自己的容器时,建议在您的MaxPayloadInMB请求中保留参数CreateTransformJob的设置。这将提示平台选择算法的默认执行参数,您将在日志中看到打印出的默认执行参数,如下所示:

[sagemaker logs]: MaxConcurrentTransforms=1, MaxPayloadInMB=${DEFAULT_MAX_PAYLOAD_IN_MB}, BatchStrategy=MultiRecord

有关如何解析这些“执行参数”的详细信息,请参见here中记录的“优先顺序”。

除了控制有效负载大小外,其他转换作业参数选择(SplitType=RecordIOBatchStrategy=MultiRecord)看起来对于传递RecordIO-Protobuf数据也是正确的。

答案 1 :(得分:0)

我设法解决了这个问题,看来我使用的maxpayload太高了。我设置了MaxPayloadInMB=1,现在它像梦一样运行