我正在使用WEKA工具进行数据分析,但是在我的一些属性中,域内有许多值。具体来说,我需要代表一些有关蛋白质的信息,我需要包含的信息是与其功能相关的术语。
例如,这些值包含在相同的属性“Function”中:
“RNA结合蛋白”,“核糖结合RNA结构的RNA结构成分”,“翻译”,“细胞内核糖核蛋白复合物”。
这些条款极大地多样化。
有人可以帮助我吗?
答案 0 :(得分:1)
一种常见的方法是将n
个不同类别的分类变量拆分为n
个二进制虚拟变量。
例如:
gender = {male, female}
可以用2个虚拟变量重写为:
male = [0, 1]
female = [1, 0]
在您的情况下,似乎函数可以包含几个不同的值(例如,具有多个函数的1个蛋白质)。这也很容易塑造成虚拟变量。