如何处理某些属性中的多个值?

时间:2013-05-20 20:19:29

标签: attributes machine-learning weka data-representation

我正在使用WEKA工具进行数据分析,但是在我的一些属性中,域内有许多值。具体来说,我需要代表一些有关蛋白质的信息,我需要包含的信息是与其功能相关的术语。

例如,这些值包含在相同的属性“Function”中:

“RNA结合蛋白”,“核糖结合RNA结构的RNA结构成分”,“翻译”,“细胞内核糖核蛋白复合物”。

这些条款极大地多样化。

有人可以帮助我吗?

1 个答案:

答案 0 :(得分:1)

一种常见的方法是将n个不同类别的分类变量拆分为n个二进制虚拟变量。

例如:

gender = {male, female}可以用2个虚拟变量重写为:

  1. male = [0, 1]
  2. female = [1, 0]
  3. 在您的情况下,似乎函数可以包含几个不同的值(例如,具有多个函数的1个蛋白质)。这也很容易塑造成虚拟变量。