标签: scala apache-spark apache-spark-mllib apache-spark-dataset
培训了mllib模型后,我是否必须将在线系统中的每个传入项目转换为DataFrame,以便在其上调用类似预测/转换的方法? 看起来像是时间/内存相关问题的高风险的过度杀伤。
我可以以某种方式构建/转换/预测一行,或类似的东西吗? (Scala中的解决方案更可取)
我发现了一篇文章,作者说他们已经为此实现了自己的一些内容:https://www.oreilly.com/ideas/training-and-serving-nlp-models-using-spark-mllib