(仅)sklearn

时间:2016-07-09 08:57:50

标签: machine-learning scipy statistics nlp scikit-learn

我想用这个库来估计最大熵模型的系数。

我的实验设置如下:

我有一组带注释的数据:句子加上可能的解析树的森林,其中只有一个被标记为正确。我想训练一个最大熵模型,以便能够对解析森林进行看不见的句子。问题在于森林可能具有指数大小,因此我想实现一种自定义算法来计算得分(动态计算的特征系数的乘积/乘积)以进行预测。我想只使用标记为正确的解析树来计算系数。我跳过不正确数据的论点是我不需要概率,只需要得分(及其推导)。

问题是sklearn希望用至少两个类注释数据。

我建议的解决方案: 添加' artificial'仅为一个附加类激活的功能,并将一个记录添加到仅激活此一个的训练数据中。它不应该影响永远不会激活此人工特征的结果。

对你有意义吗?你能告诉其他任何解决方案吗?我想避免从头开始实施。

0 个答案:

没有答案