Csv使用自定义行分隔符限制源

时间:2016-01-06 17:01:55

标签: google-cloud-dataflow

我想读取带有除默认行分隔符之外的行分隔符的csv文件。每个csv记录跨越多行,因此TextIO.Read不够。

我应该扩展FileBasedSource还是有任何现有的CsvBasedSource(带有自定义行/字段分隔符)。

我正在查看splitIntoBundles()api,XmlSource没有覆盖isSplittable(),所以它可以拆分成bundle并且想知道XmlSource如何处理这个因为分裂可能发生在一个中间<记录>因为拆分仅基于desiredBundleSize进行。

1 个答案:

答案 0 :(得分:1)

这是正确的,这需要自定义FileBasedSource实现才能工作。关于XMLSource,记录和根元素名称必须是唯一的(即没有其他元素可以具有这些名称)。我们将更新文档以反映这一点,并考虑将来对此进行改进。