我想读取带有除默认行分隔符之外的行分隔符的csv文件。每个csv记录跨越多行,因此TextIO.Read不够。
我应该扩展FileBasedSource还是有任何现有的CsvBasedSource(带有自定义行/字段分隔符)。
我正在查看splitIntoBundles()api,XmlSource没有覆盖isSplittable(),所以它可以拆分成bundle并且想知道XmlSource如何处理这个因为分裂可能发生在一个中间<记录>因为拆分仅基于desiredBundleSize进行。
答案 0 :(得分:1)
这是正确的,这需要自定义FileBasedSource实现才能工作。关于XMLSource,记录和根元素名称必须是唯一的(即没有其他元素可以具有这些名称)。我们将更新文档以反映这一点,并考虑将来对此进行改进。