featuretools / DFS生成的特征向量是密集的还是稀疏的,还是依赖于某些东西?
答案 0 :(得分:3)
Featuretools生成的特征向量的稀疏性通常取决于
EntitySet
和原语旨在提供密集信息。尽管构造将使原始稀疏的输出的示例EntitySets
成为可能(但没有帮助),但是对于原语来说,更常见的是回复否信息比稀疏信息。
但是,某些原语和工作流程比其他原语和工作流程更容易回馈稀疏。一个值得担心的问题是feature encoding,它使用了一个热点。因为仅当某个值出现时才生成具有1的向量,所以不经常出现的分类值会立即转换为稀疏向量。使用Where
聚合原语有时可能会产生类似的结果。