是否应该为训练集标记句子或整个评论?

时间:2016-12-12 06:44:20

标签: r model text-classification training-data naivebayes

我是分析领域的新手。也许这个问题对你来说很愚蠢。我正在使用R进行审核分类。我必须将评论分为50个不同的类别。我手动标记数据以用于模型的培训目的。我对如何标记评论感到困惑?

我在这里做的是,首先我将单个评论转换成句子,然后给这些句子指定一个特定的类别。我在这做吗?

或者我必须在不违反句子的情况下将类别标签提供给评论?如果评论属于超过1类,那么应该做什么?

1 个答案:

答案 0 :(得分:1)

每次审核都可能有多个标签。您为分类器使用的任何功能都不会影响您的标签处理过程。

您的标记评论(用于培训或评估)应如下所示:

ID        Content                    Tags
review#1, "content of the review#1", Mexican food,spicy
review#2, "content of the review#2", American food,apple pie,dessert 

其中"墨西哥食物","辣","苹果派","甜点"和#34;美国食品"都是可能的标签。对于每次审核,您只需提供适用的标签。默认情况下,我们假设其他标签不适用。

在训练时,您应该选择适用于multi-label的分类器。