从HDFS导入表到spark

时间:2014-06-26 14:16:57

标签: hadoop hdfs apache-spark

有没有办法将表格从HDFS直接导入spark并将其存储为RDD,还是需要制作成文本文件?

ps - 我使用sqoop从本地系统获取HDFS表(如果这很重要),当我这样做时它以4个文件的形式出现

2 个答案:

答案 0 :(得分:0)

虽然我没有在我自己之前使用sqoop,但您可以使用它创建一个hive表,然后您可以使用Spark SQL进行查询,这将返回SchemaRDDs:)

答案 1 :(得分:0)

您可以使用read.jdbc()上的sqlContext将外部数据库中的表格导入Spark DataFrame。