我想对某些数据运行机器学习算法,因此我首先将数据导出到文件中。
但是,我分类的文字的一个功能是标签列表, 每个文本可以有多个标签ex。 (["神秘","惊悚"])。
建议当我写入CSV文件以导出数据时,我将整个列表写为我的数据的一个功能("标记"功能)。 或者为每个标签制作单独的功能更好。唯一的问题是大多数示例只有一个标记,因此其他特征列将为空白。
所以看起来把这个标签列表写成一个特征是最有意义的,但是当解析它以进行训练时,我是否会将该列表的每个元素视为自己的特征仍然或不是?
答案 0 :(得分:-1)
如果您将其作为单个功能执行,请确保使用一些分隔符来分隔在任何标记中都不会出现的标记,并且也不会使用逗号(因为它会混淆csv格式),像|可能会好起来的。当您构建模型并读入标记列表时,您可以根据该分隔符将其拆分。在Java中,这看起来像:
String[] tagList = inputString.split("|");
我确定大多数语言都有类似的方法来执行此操作。