tf变换对于特征处理非常方便,但是在没有分布式计算的情况下在大型数据集上运行效率不高。 tf转换在波束上运行,据我了解,它可以使用多个运行程序,例如数据流,spark运行程序等,但是我找不到任何在spark上运行tf转换的示例。我想知道现在是否支持它。
答案 0 :(得分:0)
我认为您目前尚不能在Spark上运行tf.transform。
tf.transform在Python和Beam's Spark runner only supports Java中。 AFAIK仅Google的Cloud Dataflow运行器与Python和tf.transform一起使用。有one article mentioned PySpark,但不确定是否适合。
Beam Runner的开发正在进行中,最远的开发可能是Flink Runner which has Python SDK,但它仍在开发中,支持和示例非常少。 Here is a stack overflow post about setting it up。