应用错误收集

功能工具/ DFS会产生哪些特征向量？

时间：2018-03-09 19:35:54

标签： data-science featuretools

featuretools / DFS生成的特征向量是密集的还是稀疏的，还是依赖于某些东西？

1 个答案:

答案 0 :(得分：3)

Featuretools生成的特征向量的稀疏性通常取决于

有问题的EntitySet和
选择的原语。

原语旨在提供密集信息。尽管构造将使原始稀疏的输出的示例EntitySets成为可能（但没有帮助），但是对于原语来说，更常见的是回复否信息比稀疏信息。

但是，某些原语和工作流程比其他原语和工作流程更容易回馈稀疏。一个值得担心的问题是feature encoding，它使用了一个热点。因为仅当某个值出现时才生成具有1的向量，所以不经常出现的分类值会立即转换为稀疏向量。使用Where聚合原语有时可能会产生类似的结果。