apache-spark - 如何使用Spark中的稀疏列从关系数据库创建数据框？ - Thinbug

如何使用Spark中的稀疏列从关系数据库创建数据框？

时间：2016-06-14 23:30:11

标签： apache-spark spark-dataframe

我必须从关系数据库中读取一些数据，以便在Spark中进行一些机器学习。但是，我必须阅读的表有一些稀疏列。此外，它有一个名为“SpecialPurposeColumns”的列，其中包含XML格式的非零数据，如：

<Age>76</Age><ID>78</ID><Income>87000</Income> ... <ZIP>96733</ZIP>

使用此数据在spark中创建数据框的好方法是什么？

提前致谢

0 个答案:

没有答案