Spark-MongoDB连接器

时间:2018-06-19 04:31:35

标签: mongodb apache-spark

我有一个具有复杂文档结构的大型mongodb集合。当我收到错误时,我面临一个问题

Can not cast Array to Struct. Value:BsonArray([])

目标列确实是一个结构。所以错误是有道理的。

我能够从另一个具有完全相同结构但数据子集的集合中成功读取。

我怀疑某些文件在mongodb已损坏。

问题:

  
      
  1. 有没有办法在mongodb连接器中过滤掉这些文件?
  2.   
  3. 我尝试从自定义选择语句中排除列,但不起作用。有可能吗?
  4.   
  5. 有没有办法将错误抑制到一定数量?如果1条记录不好,我不想拖延1M记录的负载。
  6.   

0 个答案:

没有答案