我正在使用具有以下属性的OnlineLDA
来实现Spark ML的Spark_Version = 2.0.2
算法: -
setK = 50 [Topics]
setmaxIterations = 10
setDocConcenration = -1
settopiConcentration = -1
和配置:
2 workers with 24Gb Memory Each with driver memory 25 GBs
我正在使用从50k文档生成的语料库运行此算法
我正在给其中一名工人javaHeapSpaceError
。
有一个名为的参数
setMiniBatchFraction()
并且我已将此参数的值设置为0.004
查询: - 任何人都可以告诉我有关setMiniBatchFraction()
方法的信息
我需要做出哪些改变才能摆脱这种异常
我是新手是Spark ML,欢迎任何建议。 提前致谢