我已经使用AWS SageMaker成功地训练了Scikit-Learn LSVC模型。
我想在一个相对较大的数据集上进行批量预测(也就是批量转换),该数据集是形状为252772 x 185128的稀疏稀疏矩阵。(特征数量很多,因为对词袋进行一次热编码和ngrams功能)。
我之所以挣扎是因为:
数据大小
数据格式
我做了几个实验来检查发生了什么:
有效
在SageMaker笔记本上本地反序列化模型工件,并根据稀疏矩阵的样本进行预测。
只是为了检查模型是否可以预测此类数据。
有效
在SageMaker上启动批处理转换作业,并请求转换密集csv格式的小样本:很明显,它可以工作但不能缩放。
代码是:
sklearn_model = SKLearnModel(
model_data=model_artifact_location_on_s3,
entry_point='my_script.py',
role=role,
sagemaker_session=sagemaker_session)
transformer = sklearn_model.transformer(
instance_count=1,
instance_type='ml.m4.xlarge',
max_payload=100)
transformer.transform(
data=batch_data,
content_type='text/csv',
split_type=None)
print('Waiting for transform job: ' + transformer.latest_transform_job.job_name)
transformer.wait()
其中:
model_fn
以反序列化模型工件:def model_fn(model_dir):
clf = joblib.load(os.path.join(model_dir, "model.joblib"))
return clf
batch_data
是csv文件的s3路径。 有效
我准备了一个数据样本,并将其以Numpy .npy
格式保存到s3。根据{{3}},SageMaker Scikit学习模型服务器可以反序列化NPY格式的数据(以及JSON和CSV数据)。
与先前实验(2)的唯一区别是content_type='application/x-npy'
中的参数transformer.transform(...)
。
此解决方案无法扩展,我们希望传递一个Scipy稀疏矩阵:
这是问题所在
SageMaker Python SDK不支持稀疏矩阵格式。
遵循此:
我使用write_spmatrix_to_sparse_tensor
在s3上将数据写入protobuf格式。我使用的功能是:
def write_protobuf(X_sparse, bucket, prefix, obj):
"""Write sparse matrix to protobuf format at location bucket/prefix/obj."""
buf = io.BytesIO()
write_spmatrix_to_sparse_tensor(file=buf, array=X_sparse, labels=None)
buf.seek(0)
key = '{}/{}'.format(prefix, obj)
boto3.resource('s3').Bucket(bucket).Object(key).upload_fileobj(buf)
return 's3://{}/{}'.format(bucket, key)
然后用于启动批处理转换作业的代码是:
sklearn_model = SKLearnModel(
model_data=model_artifact_location_on_s3,
entry_point='my_script.py',
role=role,
sagemaker_session=sagemaker_session)
transformer = sklearn_model.transformer(
instance_count=1,
instance_type='ml.m4.xlarge',
max_payload=100)
transformer.transform(
data=batch_data,
content_type='application/x-recordio-protobuf',
split_type='RecordIO')
print('Waiting for transform job: ' + transformer.latest_transform_job.job_name)
transformer.wait()
我收到以下错误:
sagemaker_containers._errors.ClientError: Content type application/x-recordio-protobuf is not supported by this framework.
问题:
(《变形金刚》的参考文档:Errors running Sagemaker Batch Transformation with LDA model)
content_type='application/x-recordio-protobuf'
,我应该使用什么?split_type='RecordIO'
是否正确? input_fn
函数以反序列化数据?