Question

对于ML.Net，我正在使用分类器进行文本解释。预测的得分列为float []和预测的标签。这是因为最高分数与预测标签有关，而其他分数只是没有特定顺序的浮点数。我如何知道哪个分数与哪个标签相关？如何查看加权第二高的标签？

例如，我得到以下信息： 0.00005009 0.00893076 0.1274763 0.6209787 0.2425644

0.6是我预测的标签，但我还需要查看0.24是哪个标签，以便了解为什么它会混淆。

标签是诸如“ Greeting”或“ Joke”之类的文本字符串，它们在管道中被字典化，所以也许这就是为什么它们的顺序不正确？

ML.Net中是否可以将两者链接在一起？要显示哪个分数与哪个标签有关？

Answer 1

对于较新的版本，此功能可以解决TryGetScoreLabelNames的问题：

    var scoreEntries = GetSlotNames(predictor.OutputSchema, "Score");

    ...

    private static List<string> GetSlotNames(DataViewSchema schema, string name)
    {
        var column = schema.GetColumnOrNull(name);

        var slotNames = new VBuffer<ReadOnlyMemory<char>>();
        column.Value.GetSlotNames(ref slotNames);
        var names = new string[slotNames.Length];
        var num = 0;
        foreach (var denseValue in slotNames.DenseValues())
        {
            names[num++] = denseValue.ToString();
        }

        return names.ToList();
    }

（来源：http://www.programmersought.com/article/3762753756/）

当然，这需要更多的错误处理等。

Answer 2

您可以使用以下代码获取与分数相对应的标签：

string[] scoreLabels;
model.TryGetScoreLabelNames(out scoreLabels);

可以在here和here中找到其他详细信息。

请注意，这可能会随着即将发布的ML.NET 0.6 API改变。这些API将直接公开Schema并允许获取此信息（以及其他有用的信息）。这可能类似于TryGetScoreLabelNames今天的工作方式。

Answer 3

从构建管道的角度可以避免此问题。确保一个热编码或特征化的列具有不同的列名。输入和输出列都仍将出现在DataView中，因此您只需适当地构建输出模型即可。

例如：

在构建管道时

var pipeline = mlContext.Transforms.Categorical.OneHotEncoding(outputColumnName: "label_hotencoded", inputColumnName: "label")
// Append other processing in the pipeline 
.Append(...)
// Ensure that you override the default name("label") for the label column in the pipeline trainer and/or calibrator to your hot encoded label column
.Append(mlContext.BinaryClassification.Trainers.FastTree(labelColumnName: "label_hotencoded"))
.Append(mlContext.BinaryClassification.Calibrators.Platt(labelColumnName: "label_hotencoded"));

您现在可以构建输出模型POCO类以接收所需的值

public class OutputModel
{      
    [ColumnName("label")]
    public string Label{ get; set; }

    [ColumnName("Score")]
    public float Score{ get; set; }
}

通过这种方式，您的输出列是人类可读的，同时您输入到培训师的列的格式也正确。

注意：此技术也可以与数据中的其他列一起使用。只需确保在转换管道中的列时使用不同的列名，并在连接到“功能”时传递正确的列名即可。然后可以编写输出模型类以提取所需的任何值。

Answer 4

由于@Samuel 的代码片段不适用于我得到的 MulticlassClassificatoinMetrics，以下是对我有用的：

public static string[] GetSlotNames(this DataViewSchema schema)
{
    VBuffer<ReadOnlyMemory<char>> buf = default;
    schema["Score"].Annotations.GetValue("SlotNames", ref buf);
    return buf.DenseValues().Select(x => x.ToString()).ToArray();
}

schema 取自使用学习模型转换训练/验证数据时获得的 IDataView。

var dataView = _mlContext.Data.LoadFromEnumerable(validationSet.Data);
var features = _featureExtractor.Transform(dataView);
var predictions = _learnedModel.Transform(features);

var classLabels = predictions.Schema.GetSlotNames(),

我正在使用 Microsoft.ML 1.5.5

ML.NET显示哪个分数与哪个标签相关

4 个答案: