是否可以在spark上运行tf转换?

时间:2019-04-03 12:08:12

标签: tensorflow-transform

tf变换对于特征处理非常方便,但是在没有分布式计算的情况下在大型数据集上运行效率不高。 tf转换在波束上运行,据我了解,它可以使用多个运行程序,例如数据流,spark运行程序等,但是我找不到任何在spark上运行tf转换的示例。我想知道现在是否支持它。

1 个答案:

答案 0 :(得分:0)

我认为您目前尚不能在Spark上运行tf.transform。

tf.transform在Python和Beam's Spark runner only supports Java中。 AFAIK仅Google的Cloud Dataflow运行器与Python和tf.transform一起使用。有one article mentioned PySpark,但不确定是否适合。

Beam Runner的开发正在进行中,最远的开发可能是Flink Runner which has Python SDK,但它仍在开发中,支持和示例非常少。 Here is a stack overflow post about setting it up