我在具有许多输入字段的JPMML(标量)中使用PMML模型时遇到问题。在下面找到一个最小的示例:加载300x150像素的图像并将其用作PCA(python)的输入:
img = PIL.Image.open(filename)
img = img.resize(STANDARD_SIZE) # 300x150
img = np.array([int(np.mean(a)) for a in img])
pca = PCA(svd_solver=pca_method,n_components = components)
train = pca.fit_transform(train_x)
pipeline = PMMLPipeline(([('pca', pca), ('knn', neigh)]))
sklearn2pmml(pipeline, "/tmp/pca.pmml")
第二步,应使用JPMML(标量)加载此模型:
val evaluator = new LoadingModelEvaluatorBuilder()
.setLocatable(false)
.load(new File("/tmp/pca.pmml"))
.build()
evaluator.verify()
这将导致非常明显的异常:
Exception in thread "main" org.jpmml.evaluator.InvalidElementException: Model has too many input fields
at org.jpmml.evaluator.ModelEvaluatorBuilder.checkSchema(ModelEvaluatorBuilder.java:135)
at org.jpmml.evaluator.ModelEvaluatorBuilder.build(ModelEvaluatorBuilder.java:115)
...
如果您查看源代码,则可以在ModelEvaluatorBuilder
处找到以下限制:
if((inputFields.size() + groupFields.size()) > 1000){
throw new InvalidElementException("Model has too many input fields", miningSchema);
}
所以我的45,000输入字段太多了。如果我正确地掌握了PMML文档,则只能对inpt字段使用原子数据类型(int,char,double等)。
有什么想法可以实际解决这个限制吗?
答案 0 :(得分:1)
您可以使用自己的检查逻辑(例如“接受一切”)覆盖ModelEvaluatorBuilder#checkSchema(ModelEvaluator)
方法:
evaluator = new LoadingModelEvaluatorBuilder(){
@Override
protected void checkSchema(ModelEvaluator<?> modelEvaluator){
// Anything goes - I'm willing to accept the responsibility for my own actions
}
}
.setLocatable(false)
.load(new File("/tmp/pca.pmml"))
.build();
此健全性检查是有原因的。 (J)PMML并非用于处理二进制Blob(例如图像),将图像对象表示为45k双字段是一个非常糟糕的主意。