Cloud ML批量预测目前支持哪些数据格式？

时间：2016-09-30 01:21:00

标签： google-cloud-ml

我在我训练过的模型中构建了推理图，并希望使用批量预测来预测许多记录。如何在输入文件中指定输入？

1 个答案:

答案 0 :(得分：2)

到目前为止，Cloud ML支持三种数据格式。一个是文本文件，其中每一行都是您要预测的记录。第二种和第三种格式是TFRecords;支持压缩和gzip压缩。 TFRecord文件是用于存储字节的容器，通常是二进制数据，例如二进制数据。序列化示例原型。这些字节直接馈入预测图。您必须在请求中的data_format字段（TEXT，TF_RECORD，TF_RECORD_GZIP）中指定它们。

对于文本格式，每一行都是JSON对象或UTF8字符串。在前者的情况下，键是输入张量名称，值是将被输入到推理图中的数据。如果图形只有一个输入张量，则可以跳过JSON并只保存换行符分隔的字符串。

以下是一些例子：

您有四个输入张量，即索引，高度，名称和图像

{“index”: 100, “height”: 5.5, “name”: “Alice”, “image”: [0.0, 0.0, 0.123, 0.17,0,0]}
{“index”: 101, “height”: 5.8, “name”: “John”, “image”: [0.0, 0.21, 0.09, 0.5, 0,0]}
...

您有一个字符串输入张量。无需指定名称。

“This is a string input”
“That is another string input”
...

你有一个标量类型的张量。无需指定名称。

你有一个输入张量，这是一个numpy数组。无需指定名称。

[0, 3.14, 2.718, 0.0, 1.414]
[1.618, 299.7, 8.314, 0.0, 0.0]
...

请注意，mutliple-tensor输入案例中的名称必须与推理图中输入集合中定义的aliases匹配。