应用错误收集

使用Pypark在大数据上构建ML模型所需的系统配置

时间：2019-05-11 06:41:51

标签： apache-spark

我通常在python上构建ML模型，到目前为止我使用的最大数据是150万条记录，现在我想构建用于异常检测的ML模型，我的火车数据包含大约100亿条记录。我被要求在PySpark上构建该模型。由于我是Pyspark的新手，我只是想知道如果必须在PySpark中构建模型，要处理这么大的数据需要什么系统配置。

0 个答案:

没有答案

用户所需的Geoaccess权限 - 生成大量数据
如何实现海量数据的通知系统？
在R中进行数据分析所需的最佳系统配置是什么
使用spark ml的推荐系统
用于监控系统（IoT）的Django模型构建
Keras LSTM模型对庞大的数据
使用Pyspark从结构化流数据框架构建Spark ML管道模型
偏斜数据的ML模型验证
使用Pypark在大数据上构建ML模型所需的系统配置
大型深度学习模型的系统配置？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？