功能工具/ DFS会产生哪些特征向量?

时间:2018-03-09 19:35:54

标签: data-science featuretools

featuretools / DFS生成的特征向量是密集的还是稀疏的,还是依赖于某些东西?

1 个答案:

答案 0 :(得分:3)

Featuretools生成的特征向量的稀疏性通常取决于

  1. 有问题的EntitySet
  2. 选择的原语。
  3. 原语旨在提供密集信息。尽管构造将使原始稀疏的输出的示例EntitySets成为可能(但没有帮助),但是对于原语来说,更常见的是回复信息比稀疏信息。

    但是,某些原语和工作流程比其他原语和工作流程更容易回馈稀疏。一个值得担心的问题是feature encoding,它使用了一个热点。因为仅当某个值出现时才生成具有1的向量,所以不经常出现的分类值会立即转换为稀疏向量。使用Where聚合原语有时可能会产生类似的结果。