我正在尝试识别数据集中的特征类型,该特征可以是分类/单词/浮点数。
但由于以下原因,我无法达成准确的解决方案来区分分类词和词袋。
识别特征类型的最佳方法是什么?
答案 0 :(得分:1)
嗯,你对这两个术语感到困惑:
分类数据是一种可以在不同类别之间分类的数据,尤其是两个以上的类或多类。搜索20个新闻组数据集。
然而, 词汇是存储功能的技术。特征的识别是基于所需的结果来完成的。有一些技术可以从sklearn, Word2Vec , Doc2Vec 等提取 TF-IDF Vectorizer 等功能。但是功能的识别完全基于您使用的数据集及其使用的应用程序。永远记住,如果您将文本数据转换为数字形式或者无论如何,列名称都是您的要素或维度,而行是您的样本或实例或记录。