标签: apache-spark apache-spark-sql spark-streaming-kafka
我有一个RDD的{{1}},其中既包含模式又包含数据。但是我的GenericRecord将具有来自30个不同表的数据,这些数据我无法控制。源数据为AVRO格式。
RDD
GenericRecord
我想根据RDD写入不同文件夹中的HDFS。因此,我试图基于此RDD创建一个DataFrame。但是我这样做时并没有得到架构。