我有一大堆jpeg / png图像。我想最终在这些上运行一个神经网络。但首先我必须对图像进行矢量化。因为有大量的图像,我计划使用python和Spark而不是软件。
我是初学程序员。有人会知道一些粗略的代码吗?如果做不到这一点,替代方法也会非常受欢迎!
许多人提前感谢!
答案 0 :(得分:0)
SequenceFile
中。这个问题可以帮助您使用代码:Store images/videos into Hadoop HDFS SeqenceFile
从SparkContext
读取数据,将矢量化Python实现放入Spark map()
函数并将其应用于您在其上的所有图像分布式集群。然后将数据保存回HDFS