从数据集制作基准,斯坦福NLP

时间:2014-02-09 02:32:47

标签: nlp stanford-nlp

我试图通过斯坦福NLP分类器的示例,并有一个关于分类新数据集的问题。我看到“.test”文件包含“goldClass”,这是正确的答案以及应该测试的字符串。

示例测试集具有以下格式:

<label> <string>
<label> <String>
...
....

一旦我们从手分类数据集创建模型,这对于模型的评估是有意义的。但是现在,一旦创建了模型,我该如何对一个全新的数据集进行分类?我不再拥有相关的标签......我只是拥有一组新的字符串,我想知道这个类......

但是要对它们进行分类,我将不得不创建一个Datum对象。要创建一个基准对象,我需要使用makeDatumFromLine(),它需要一个TSV线......为什么这必须是TSV?在分类新数据时指定goldClass有什么用?

我希望我的问题很清楚......

0 个答案:

没有答案