KNIME - 在多个属性上的字符串到文档节点

时间:2018-05-01 09:50:02

标签: classification text-classification naivebayes knime

我正在使用以下数据集(https://www.kaggle.com/crowdflower/twitter-user-gender-classification/data)开发Naive Bayes分类器。

我要做的是跟踪一个分类器,它允许我根据推文文本,推特配置文件描述和推特配置文件侧面颜色预测用户性别。 由于twitter文本和配置文件描述属性是字符串列,我需要在训练分类器之前预处理数据。为了做到这一点,我看到很多例子都使用了Strings to Document节点。然后,这个新列Document将与其他节点(如数字过滤器,案例转换器等)进行预处理。

因为我想使用更多的属性来训练我的分类器,我必须做什么?我应该将两个字符串属性(推文文本和个人资料描述)转换成文档吗?

1 个答案:

答案 0 :(得分:0)

我建议您使用所需的所有预处理创建一个元节点,然后复制该元节点以预处理您认为对模型有用的每个字符串列。然后,只需使用数据提取器节点并将经过预处理的字符串列和列追加器节点连接到一个新表中即可。