测试最大熵分类器

时间:2018-02-23 12:10:11

标签: nlp stanford-nlp text-classification

是否可以通过Stanford Maximum Entropy分类器对新数据进行分类而不创建包含所有功能的外部文件?

换句话说,我有一个以下格式的测试文件:

token1 \ t feature1_1 \ t ... \ t feature1_N \ t goldLabel1

...

tokenM \ t featureM_1 \ t ... \ t featureM_N \ t goldLabelM

我想知道是否可以使用数据结构来包含测试数据 无需创建外部文件。

任何帮助将不胜感激!

由于

1 个答案:

答案 0 :(得分:0)

如果您查看此方法(ColumnDataClassifier中的第409行)

private Pair<GeneralDataset<String,String>, List<String[]>> readDataset(String filename, boolean inTestPhase) {

您可以看到代码如何从文件路径转到Pair<GeneralDataset<String,String>, List<String[]>>

这是评估所需的关键数据对象。

如果您查看此方法(ColumnDataClassifier中的第2158行),您可以看到评估是如何完成的

public Pair<Double, Double> testClassifier(String testFile) {

如果您查看main()方法(第2011行),您会看到正在构建ColumnDataClassifier的示例。

通过查看这三种方法,您可以编写其他代码来执行您想要执行的操作,并避免写入磁盘。