是否可以使用unicode列实例化DataFrame?

时间:2015-12-08 19:18:24

标签: python apache-spark dataframe pyspark apache-spark-sql

我正在尝试创建一个DataFrame,其中包含一个存储unicode数据而非标准python string的列,因为我的语言还有一些额外的重音字母,例如ñ, á, é和其他人。

我尝试了以下内容。

x = sqlContext.createDataFrame([u"A", u"B", u"C"], ["letters"])

显示下一个例外。

  

TypeError:无法推断类型的架构:< .type' unicode'>

然后我读了type documentation并且找不到兼容的数据类型,因此我问是否有人知道是否可以实现此目的?

1 个答案:

答案 0 :(得分:1)

问题是如何提供元素而不是unicode数据。即使您只有一列,每个元素都应该是受支持的类型,例如Rowlisttuple

df = sqlContext.createDataFrame([(u"A", ), (u"B", ), (u"C", )], ["letters"])