我有一个例程可以将tf.Example
个原型保存到tfrecords:
with tf.python_io.TFRecordWriter("dataset.tfrecord") as writer:
writer.write(proto)
我有一个充满tf.Example
的Spark RDD。我不想使用saveAsTextFile
将它们写入磁盘,而是想使用tf.python_io.TFRecordWriter
保存它们。我该怎么办?
答案 0 :(得分:1)
您可以尝试Spark-TFRecord。
这里是一个例子:
val df = Seq((8, "bat"),(8, "abc"), (1, "xyz"), (2, "aaa")).toDF("number", "word")
val tf_output_dir = "/tmp/tfrecord-test"
df.write.format("tfrecord").option("recordType", "Example").save(path)
您需要安装spark-tfrecord。可以在github repo上找到详细信息: https://github.com/linkedin/spark-tfrecord