在Spark DataFrame中选择第二列或更多列时获取“null”

时间:2016-11-03 11:21:16

标签: python apache-spark spark-dataframe pyspark-sql databricks

所以我有例如以下XML文件:

<root>
  <first>
    <a>textA</a>
  </first>
  <second>
    <b>textB</b>
  </second>
  <third>
    <c>textC</c>
  </third>
</root>

我通过DataBricks XML包将它加载到Spark中,一切看起来都很好并正确加载。 当我尝试选择firstfirst.a时,我会正确地得到结果。

但如果我尝试获取secondsecond.b,或thirdthird.c,那么我会获得null

我尝试了直接查询,选择功能,一切,我不知道是什么问题。 rowTag是root。 有什么想法吗?

更新:没关系,显然这是spark-xml包中的一个错误。感谢。

0 个答案:

没有答案