我试图通过斯坦福NLP分类器的示例,并有一个关于分类新数据集的问题。我看到“.test”文件包含“goldClass”,这是正确的答案以及应该测试的字符串。
示例测试集具有以下格式:
<label> <string>
<label> <String>
...
....
一旦我们从手分类数据集创建模型,这对于模型的评估是有意义的。但是现在,一旦创建了模型,我该如何对一个全新的数据集进行分类?我不再拥有相关的标签......我只是拥有一组新的字符串,我想知道这个类......
但是要对它们进行分类,我将不得不创建一个Datum对象。要创建一个基准对象,我需要使用makeDatumFromLine(),它需要一个TSV线......为什么这必须是TSV?在分类新数据时指定goldClass有什么用?
我希望我的问题很清楚......