标签: apache-spark spark-dataframe
我必须从关系数据库中读取一些数据,以便在Spark中进行一些机器学习。但是,我必须阅读的表有一些稀疏列。此外,它有一个名为“SpecialPurposeColumns”的列,其中包含XML格式的非零数据,如:
<Age>76</Age><ID>78</ID><Income>87000</Income> ... <ZIP>96733</ZIP>
使用此数据在spark中创建数据框的好方法是什么?
提前致谢