如何使用Spark中的稀疏列从关系数据库创建数据框?

时间:2016-06-14 23:30:11

标签: apache-spark spark-dataframe

我必须从关系数据库中读取一些数据,以便在Spark中进行一些机器学习。但是,我必须阅读的表有一些稀疏列。此外,它有一个名为“SpecialPurposeColumns”的列,其中包含XML格式的非零数据,如:

<Age>76</Age><ID>78</ID><Income>87000</Income> ... <ZIP>96733</ZIP>

使用此数据在spark中创建数据框的好方法是什么?

提前致谢

0 个答案:

没有答案