应用错误收集

我打算从ABS 2016 census data packs创建一个人口统计特征存储库，以用于各种机器学习和分析任务。在所有数据包中，普查数据总共包含大约15,000个包含浮点值的列（功能）。我已经设法以实木复合地板格式将数据作为一张宽桌子拿了起来。我曾尝试在Spark中加载和处理数据，但每次运行某些分析作业时Spark都会引发不同的异常，因此我猜这些列太多了。

也许最好的方法是跨多个表对数据建模，也许可以在Spark中有效地处理这些功能？使用此功能存储的用例是，在给定的内部公司指标下，找到与NMI相关性最高/具有最高NMI的前100-200个功能，并将其用于预测性或描述性分析。

使用ABS 2016年人口普查数据的数据模型

0 个答案: