识别数据集中的要素类型:分类或单词包

时间:2018-05-14 09:11:45

标签: python pandas machine-learning

我正在尝试识别数据集中的特征类型,该特征可以是分类/单词/浮点数。

但由于以下原因,我无法达成准确的解决方案来区分分类词和词袋。

  1. 分类数据可以是object或float。计算要素中的唯一值并不能确保准确的解决方案,因为不同的样本可能具有相同的特征值,这些特征值可能不是绝对的。
  2. 对于包或单词,我想到计算单词的数量,但这又不是正确的方法,因为文本可以用一个单词写成或者可能丢失。
  3. 识别特征类型的最佳方法是什么?

1 个答案:

答案 0 :(得分:1)

嗯,你对这两个术语感到困惑:

分类数据是一种可以在不同类别之间分类的数据,尤其是两个以上的类或多类。搜索20个新闻组数据集。

然而, 词汇是存储功能的技术。特征的识别是基于所需的结果来完成的。有一些技术可以从sklearn, Word2Vec Doc2Vec 等提取 TF-IDF Vectorizer 等功能。但是功能的识别完全基于您使用的数据集及其使用的应用程序。永远记住,如果您将文本数据转换为数字形式或者无论如何,列名称都是您的要素或维度,而行是您的样本或实例或记录。