Cloud ML批量预测目前支持哪些数据格式?

时间:2016-09-30 01:21:00

标签: google-cloud-ml

我在我训练过的模型中构建了推理图,并希望使用批量预测来预测许多记录。如何在输入文件中指定输入?

1 个答案:

答案 0 :(得分:2)

到目前为止,Cloud ML支持三种数据格式。一个是文本文件,其中每一行都是您要预测的记录。第二种和第三种格式是TFRecords;支持压缩和gzip压缩。 TFRecord文件是用于存储字节的容器,通常是二进制数据,例如二进制数据。序列化示例原型。这些字节直接馈入预测图。您必须在请求中的data_format字段(TEXT,TF_RECORD,TF_RECORD_GZIP)中指定它们。

对于文本格式,每一行都是JSON对象或UTF8字符串。在前者的情况下,键是输入张量名称,值是将被输入到推理图中的数据。如果图形只有一个输入张量,则可以跳过JSON并只保存换行符分隔的字符串。

以下是一些例子:

您有四个输入张量,即索引,高度,名称和图像

{“index”: 100, “height”: 5.5, “name”: “Alice”, “image”: [0.0, 0.0, 0.123, 0.17,0,0]}
{“index”: 101, “height”: 5.8, “name”: “John”, “image”: [0.0, 0.21, 0.09, 0.5, 0,0]}
...

您有一个字符串输入张量。无需指定名称。

“This is a string input”
“That is another string input”
...

你有一个标量类型的张量。无需指定名称。

1445
425
3412
...

你有一个输入张量,这是一个numpy数组。无需指定名称。

[0, 3.14, 2.718, 0.0, 1.414]
[1.618, 299.7, 8.314, 0.0, 0.0]
...

请注意,mutliple-tensor输入案例中的名称必须与推理图中输入集合中定义的aliases匹配。