我打算从ABS 2016 census data packs创建一个人口统计特征存储库,以用于各种机器学习和分析任务。在所有数据包中,普查数据总共包含大约15,000个包含浮点值的列(功能)。我已经设法以实木复合地板格式将数据作为一张宽桌子拿了起来。我曾尝试在Spark中加载和处理数据,但每次运行某些分析作业时Spark都会引发不同的异常,因此我猜这些列太多了。
也许最好的方法是跨多个表对数据建模,也许可以在Spark中有效地处理这些功能? 使用此功能存储的用例是,在给定的内部公司指标下,找到与NMI相关性最高/具有最高NMI的前100-200个功能,并将其用于预测性或描述性分析。