pyspark流媒体是否适合机器学习/科学计算?

时间:2017-09-25 11:35:04

标签: python numpy pyspark spark-streaming

我是新手,必须编写一个流媒体应用程序,必须执行快速傅里叶变换和一些机器学习的东西,如svms等分类/回归。我想在pyspark中执行此操作,因为python&#39 ;各种各样的模块,如numpy,scikit-learn等。我的问题是,是否可以在流应用程序中执行此类操作?据我所知,spark使用dstreams。这些流是否可以转换为像numpy数组或类似的东西,可以作为python函数的输入?

THX

2 个答案:

答案 0 :(得分:0)

Pyspark用于在spark中运行程序/代码/算法,用python语言编写。

对于机器倾斜,spake有MLlib库包。

出于流媒体的目的,spark有Spark流式lib包

你也可以探索Storm以及实时流媒体。

答案 1 :(得分:0)

机器学习是从数据中学习的过程。首先训练模型然后在数据流之上使用它。 数据可以处理为迷你,微观甚至实时,取决于它在特定时间内生成的数据量。 Flume和Kafka用于实时获取数据并存储在HDFS上,或者可以通过指向水槽的Spark流式传输到Spark。

相关问题