有没有办法将表格从HDFS直接导入spark并将其存储为RDD,还是需要制作成文本文件?
ps - 我使用sqoop从本地系统获取HDFS表(如果这很重要),当我这样做时它以4个文件的形式出现
答案 0 :(得分:0)
虽然我没有在我自己之前使用sqoop,但您可以使用它创建一个hive表,然后您可以使用Spark SQL进行查询,这将返回SchemaRDDs:)
答案 1 :(得分:0)
您可以使用read.jdbc()
上的sqlContext
将外部数据库中的表格导入Spark DataFrame。