为文本文档建模特征空间非常简单。
例如,我可以将文本(训练数据)中的每个单词作为特征。
如果是特定单词(例如&# 34; dog")在(分类)训练样例中遇到多次(例如归类为垃圾邮件),然后我可以用这个词来分类新数据。
如果我的功能不仅仅是单词,我该如何建模?
在我的具体情况下,我有姓名,年龄和家庭规模等特征。我不认为这是在我的特征向量中为每个可能的年龄创建条目的正确方法。
如果我假设人类死亡时间不超过100,那么我的年龄特征只有100位数。
所以我考虑了数据分箱:对功能进行分区"年龄"可能是1-20岁,21-40岁,41-60岁,......
要为年龄为30岁的人建模,我现在只需要5位数(01000)。
有没有更好的方法来模拟这些功能?