使用
导入数据表时val df = spark.sql("SELECT * FROM newsletter.newsletter_delivery where newsletter_delivery.ndi_divisione_id = 61" ).show
我看到(列的摘录):
+ ------------------------- +
| ndi_committente_id |
|空|
|空|
|空|
.... 用一个表格除以|。
目前我正在解析这个巨大的字符串并将数据输入到数据帧中,因为数据非常大,所以数据帧很慢。我想知道是否有办法从aws获取数据并直接将其加载到spark数据帧或pyspark数据帧中。