使用openNLP maxent训练模型

时间:2014-07-22 20:38:13

标签: java machine-learning classification opennlp maxent

我有黄金数据,我在几个文件中注释了所有房间号码。我想使用openNLP来训练使用这些数据的模型并对房间号进行分类。我被困在哪里开始。我阅读了openNLP maxent文档,查看了opennlp.tools中的示例,现在查看opennlp.tools.ml.maxent - 看起来它应该是我应该使用的东西,但我仍然不知道如何使用。有人可以给我一些关于如何使用openNLP maxent以及从哪里开始的基本想法?任何帮助将不胜感激。

1 个答案:

答案 0 :(得分:4)

这是一个演示OpenNLP Maxent API使用的最小工作示例。

它包括以下内容:

  • 根据存储在文件中的数据训练maxent模型。
  • 将训练过的模型存储到文件中。
  • 从文件中加载训练过的模型。
  • 使用模型进行分类。
  • 注意:结果是每个培训样本中的第一个元素
  • 注意:值可以是任意字符串,例如xyz=s0methIng

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.util.zip.GZIPInputStream;

import opennlp.maxent.GIS;
import opennlp.maxent.io.GISModelReader;
import opennlp.maxent.io.SuffixSensitiveGISModelWriter;
import opennlp.model.AbstractModel;
import opennlp.model.AbstractModelWriter;
import opennlp.model.DataIndexer;
import opennlp.model.DataReader;
import opennlp.model.FileEventStream;
import opennlp.model.MaxentModel;
import opennlp.model.OnePassDataIndexer;
import opennlp.model.PlainTextFileDataReader;

...

String trainingFileName = "training-file.txt";
String modelFileName = "trained-model.maxent.gz";

// Training a model from data stored in a file.
// The training file contains one training sample per line.
// Outcome (result) is the first element on each line.
// Example:
// result=1 a=1 b=1
// result=0 a=0 b=1
// ...
DataIndexer indexer = new OnePassDataIndexer( new FileEventStream(trainingFileName)); 
MaxentModel trainedMaxentModel = GIS.trainModel(100, indexer); // 100 iterations

// Storing the trained model into a file for later use (gzipped)
File outFile = new File(modelFileName);
AbstractModelWriter writer = new SuffixSensitiveGISModelWriter((AbstractModel) trainedMaxentModel, outFile);
writer.persist();

// Loading the gzipped model from a file
FileInputStream inputStream = new FileInputStream(modelFileName);
InputStream decodedInputStream = new GZIPInputStream(inputStream);
DataReader modelReader = new PlainTextFileDataReader(decodedInputStream);
MaxentModel loadedMaxentModel = new GISModelReader(modelReader).getModel();

// Now predicting the outcome using the loaded model
String[] context = {"a=1", "b=0"};
double[] outcomeProbs = loadedMaxentModel.eval(context);
String outcome = loadedMaxentModel.getBestOutcome(outcomeProbs);