Question

是否可以通过Stanford Maximum Entropy分类器对新数据进行分类而不创建包含所有功能的外部文件？

换句话说，我有一个以下格式的测试文件：

token1 \ t feature1_1 \ t ... \ t feature1_N \ t goldLabel1

...

tokenM \ t featureM_1 \ t ... \ t featureM_N \ t goldLabelM

我想知道是否可以使用数据结构来包含测试数据无需创建外部文件。

任何帮助将不胜感激！

由于

Answer 1

如果您查看此方法（ColumnDataClassifier中的第409行）

private Pair<GeneralDataset<String,String>, List<String[]>> readDataset(String filename, boolean inTestPhase) {

您可以看到代码如何从文件路径转到Pair<GeneralDataset<String,String>, List<String[]>>

这是评估所需的关键数据对象。

如果您查看此方法（ColumnDataClassifier中的第2158行），您可以看到评估是如何完成的

public Pair<Double, Double> testClassifier(String testFile) {

如果您查看main()方法（第2011行），您会看到正在构建ColumnDataClassifier的示例。

通过查看这三种方法，您可以编写其他代码来执行您想要执行的操作，并避免写入磁盘。