使用Python(Spark)矢量化图像

时间:2015-03-02 21:31:17

标签: python image apache-spark vectorization

我有一大堆jpeg / png图像。我想最终在这些上运行一个神经网络。但首先我必须对图像进行矢量化。因为有大量的图像,我计划使用python和Spark而不是软件。

我是初学程序员。有人会知道一些粗略的代码吗?如果做不到这一点,替代方法也会非常受欢迎!

许多人提前感谢!

1 个答案:

答案 0 :(得分:0)

  1. 在考虑Spark和分布式计算之前,先在本地计算机上处​​理单个图像。如果你喜欢python,你可以使用类似http://scikit-image.org/docs/dev/auto_examples/的东西,但它在很大程度上取决于你想要实现的目标
  2. 如果图像量很高,请将它们存储在HDFS上的SequenceFile中。这个问题可以帮助您使用代码:Store images/videos into Hadoop HDFS
  3. 大规模实施矢量化方法:使用SeqenceFileSparkContext读取数据,将矢量化Python实现放入Spark map()函数并将其应用于您在其上的所有图像分布式集群。然后将数据保存回HDFS
  4. 不幸的是,使用神经网络,你必须在本地运行你的算法,因为在MLlib中还没有实现NN。如果您喜欢python:http://scikit-learn.org/stable/modules/neural_networks.html
  5. ,那么像sklearn这样的东西可能会有所帮助