应用错误收集

功能是文本（标签）和数字

时间：2015-06-03 00:57:09

标签： python scikit-learn

我试图找到一个包含文本的数据集的好方法，它实际上更像是标签和数字数据。例如，在数据集中，我有city，state，lat / lon，我想分类。这是受监督的，我有数据的标签（y）。

因此，在这种情况下，文本实际上并不是一些单词或类似内容。它实际上只是一个标签，更像是0,1，......但是，我不想〜我想给算法一个这个是真实值的想法。我尝试过几个不同的算法，包括svm.SVC和LinearSVC，以及DecisionTree。对于svm，我使用包括LabelEncoder在内的几种不同方法将城市和州转换为数值。但这并不直观，我对分数不满意。

非常感谢任何想法或意见。

1 个答案:

答案 0 :(得分：1)

看起来你正在寻找OneHotEncoder。有关说明，请查看文档的Encoding categorical features部分。我们的想法是，如果样本属于当前城市，您将为每个城市制作一个0/1值的列。您可能也对DictVectorizer感兴趣。