标签: apache-spark
我通常在python上构建ML模型,到目前为止我使用的最大数据是150万条记录,现在我想构建用于异常检测的ML模型,我的火车数据包含大约100亿条记录。 我被要求在PySpark上构建该模型。由于我是Pyspark的新手,我只是想知道如果必须在PySpark中构建模型,要处理这么大的数据需要什么系统配置。