使用ML模型中的特征列表

时间:2017-04-19 04:10:24

标签: text machine-learning nlp feature-selection

我想对某些数据运行机器学习算法,因此我首先将数据导出到文件中。

但是,我分类的文字的一个功能是标签列表,  每个文本可以有多个标签ex。 (["神秘","惊悚"])。

建议当我写入CSV文件以导出数据时,我将整个列表写为我的数据的一个功能("标记"功能)。 或者为每个标签制作单独的功能更好。唯一的问题是大多数示例只有一个标记,因此其他特征列将为空白。

所以看起来把这个标签列表写成一个特征是最有意义的,但是当解析它以进行训练时,我是否会将该列表的每个元素视为自己的特征仍然或不是?

1 个答案:

答案 0 :(得分:-1)

如果您将其作为单个功能执行,请确保使用一些分隔符来分隔在任何标记中都不会出现的标记,并且也不会使用逗号(因为它会混淆csv格式),像|可能会好起来的。当您构建模型并读入标记列表时,您可以根据该分隔符将其拆分。在Java中,这看起来像:

String[] tagList = inputString.split("|");

我确定大多数语言都有类似的方法来执行此操作。