我是分析领域的新手。也许这个问题对你来说很愚蠢。我正在使用R
进行审核分类。我必须将评论分为50个不同的类别。我手动标记数据以用于模型的培训目的。我对如何标记评论感到困惑?
我在这里做的是,首先我将单个评论转换成句子,然后给这些句子指定一个特定的类别。我在这做吗?
或者我必须在不违反句子的情况下将类别标签提供给评论?如果评论属于超过1类,那么应该做什么?
答案 0 :(得分:1)
每次审核都可能有多个标签。您为分类器使用的任何功能都不会影响您的标签处理过程。
您的标记评论(用于培训或评估)应如下所示:
ID Content Tags
review#1, "content of the review#1", Mexican food,spicy
review#2, "content of the review#2", American food,apple pie,dessert
其中"墨西哥食物","辣","苹果派","甜点"和#34;美国食品"都是可能的标签。对于每次审核,您只需提供适用的标签。默认情况下,我们假设其他标签不适用。
在训练时,您应该选择适用于multi-label的分类器。