标签: google-cloud-dataflow apache-beam
我正在尝试使用FileIO读取价值1.6 TB的BZIP2文件(因为TextIO由于与拆分有关的某些问题而无法读取它们),但性能非常差,它的读取速度实际上是5个元素/秒。
TextIO.read()相对要快得多,但不幸的是我无法使用它。
在这种情况下我该怎么办?有什么方法可以提高FileIO的性能吗?