如何通过AWS Machine Learning SDK创建数据源

时间:2015-05-27 05:42:50

标签: java amazon-web-services amazon-s3 aws-sdk

我正在尝试使用AWS Machine学习SDK创建数据源。我有一个数据集及其相应的模式。两者都存储在S3中。我认为我只需要在模式中提供列名。所以最初我的架构看起来像这样 -

ColName1,ColName2,....,ColNameN

后来我意识到我需要将数据类型放入模式而不是标签名称。所以我将模式更改为

Number, String,....,String

由于架构不当,我仍然无法创建数据源。我收到了这个错误 -

FAILURES (1): There was an error trying to parse the schema: 'Unexpected character ('s' (code 115)): expected a valid value (number, String, array, object, 'true', 'false' or 'null') at [Source: java.io.StringReader@3ef68a3a; line: 1, column: 2]' 

现在我认为我需要以json格式提供架构,虽然我不确定,有人可以提供一些示例来放置架构吗?

1 个答案:

答案 0 :(得分:0)

filename-datat.schema(必须将 .schema 作为模式文件的扩展名)

{
    "version": "1.0",
    "targetAttributeName": "A5",
    "dataFormat": "CSV",
    "dataFileContainsHeader": false,
    "attributes": [
        {
            "attributeName": "A1",
            "attributeType": "TEXT"
        },
        {
            "attributeName": "A2",
            "attributeType": "NUMERIC"
        },
        {
            "attributeName": "A3",
            "attributeType": "CATEGORICAL"
        },
        {
            "attributeName": "A4",
            "attributeType": "TEXT"
        },
        {
            "attributeName": "A5",
            "attributeType": "BINARY"
        }
      ]  
    }