我试图找到一个包含文本的数据集的好方法,它实际上更像是标签和数字数据。例如,在数据集中,我有city,state,lat / lon,我想分类。这是受监督的,我有数据的标签(y)。
因此,在这种情况下,文本实际上并不是一些单词或类似内容。它实际上只是一个标签,更像是0,1,......但是,我不想〜我想给算法一个这个是真实值的想法。我尝试过几个不同的算法,包括svm.SVC和LinearSVC,以及DecisionTree。对于svm,我使用包括LabelEncoder在内的几种不同方法将城市和州转换为数值。但这并不直观,我对分数不满意。
非常感谢任何想法或意见。
答案 0 :(得分:1)
看起来你正在寻找OneHotEncoder。有关说明,请查看文档的Encoding categorical features部分。我们的想法是,如果样本属于当前城市,您将为每个城市制作一个0/1值的列。您可能也对DictVectorizer感兴趣。