我正在构建一个Web应用程序,该应用程序具有Flask的一些实时机器学习功能。我想使用Spark Mllib来分析数据,并在应用程序中实时为我提供结果。 然后我发现了Livy,我认为它可能适合我的项目。 我阅读了Livy的文档,并了解可以像这样通过Livy发送代码段来触发集群
data = {'code': textwrap.dedent("""
val NUM_SAMPLES = 100000;
val count = sc.parallelize(1 to NUM_SAMPLES).map { i =>
val x = Math.random();
val y = Math.random();
if (x*x + y*y < 1) 1 else 0
}.reduce(_ + _);
println(\"Pi is roughly \" + 4.0 * count / NUM_SAMPLES)
""")}
我的情况是,我想从Spark的应用程序后端获取大量数据(数千行json格式的数据)。 我的问题是如何也将数据与Livy传递给Spark? 我找不到大型数据集的有效示例。