应用错误收集

识别数据集中的要素类型：分类或单词包

时间：2018-05-14 09:11:45

标签： python pandas machine-learning

我正在尝试识别数据集中的特征类型，该特征可以是分类/单词/浮点数。

但由于以下原因，我无法达成准确的解决方案来区分分类词和词袋。

分类数据可以是object或float。计算要素中的唯一值并不能确保准确的解决方案，因为不同的样本可能具有相同的特征值，这些特征值可能不是绝对的。
对于包或单词，我想到计算单词的数量，但这又不是正确的方法，因为文本可以用一个单词写成或者可能丢失。

识别特征类型的最佳方法是什么？

1 个答案:

答案 0 :(得分：1)

嗯，你对这两个术语感到困惑：

分类数据是一种可以在不同类别之间分类的数据，尤其是两个以上的类或多类。搜索20个新闻组数据集。

然而，词汇是存储功能的技术。特征的识别是基于所需的结果来完成的。有一些技术可以从sklearn， Word2Vec ， Doc2Vec 等提取 TF-IDF Vectorizer 等功能。但是功能的识别完全基于您使用的数据集及其使用的应用程序。永远记住，如果您将文本数据转换为数字形式或者无论如何，列名称都是您的要素或维度，而行是您的样本或实例或记录。