Microsoft.ML rel 0.8.0 MLContext与具有不同数据类型的文本文件

时间:2018-11-01 23:25:03

标签: c# ml.net

我正在尝试将ML.Net与csv文件一起使用。 该文件包含

  1. 价格数据(十进制)
  2. 枚举(不同类型的字符串)
  3. 统计数据(浮动)

我正在尝试跟踪示例provided in MlNetCookBook,但是我不能使用

FeatureVector: r.DecimalField1.ConcatWith(r.DecimalField2, r.EnumType1,r.EnumType2,r.FloatField1,...)

由于类型不兼容,我想将枚举值“ Dictionarizer”。

有人知道该如何使用新的API进行配置吗?

谢谢

1 个答案:

答案 0 :(得分:1)

Dictionarizer()/ ToKey()对于处理分类问题中的字符串标签很有用。输出的类型为“键”,不能与您拥有的数字功能并置。

对于分类(枚举)功能,您可能需要使用OneHotEncoding,如@ClojureMostly提到的:r.RTH.OneHotEncoding()。这将输出一个浮点向量,然后可以将其与您拥有的其他数字特征连接起来。

如果仍然看到错误,是否可以共享TextLoader和估算器管道?