应用错误收集

我有一些包含常规变量和文本的数据。像下面这样......

Gene    Variation   Class   Text
FAM58A  Truncating  1   Cyclin-dependent kinases (CDKs) regulate a variety of fundamental cellular processes....

Text字段非常详细，通常只有几段。我想执行一些标记化以最终进行机器学习，但我不确定如何将Gene和Variation变量（分类）包含到设计矩阵中。

简单地将它们打到我的术语文档矩阵的末尾可能会有效，但我相信还有其他方法可以解决这个问题（可能会训练两个分类器，一个用于文本，另一个用于分类变量，然后加权投票。）

我还有哪些方法可以使用sklearn处理异构数据？