从HDFS读到Spark

时间:2017-03-21 22:09:05

标签: mysql hadoop apache-spark sqoop

我正在尝试将HDFS中的文件读入Spark并对其执行一些数据处理。最初,我使用Sqoop将文件从MySQL数据库传输到Spark。 SQL数据库表有三列 - movieid,title和genres。我想知道如何格式化sc.textFile来正确拉动文件。

运行hdfs dfs -ls,我看到了:

drwxr-xr-x  - hduser1 supergroup           0 2017-03-20 23:51 movies

运行hdfs dfs -ls电影,我看到了:

-rw-r--r--  1 hduser1 supergroup           0 2017-03-20 23:51 movies/_SUCCESS
-rw-r--r--  1 hduser1 supergroup     1290474 2017-03-20 23:51 movies/part-m-0000

我想弄清楚的是下面的功能:

case class Movie(movieid: String, title: String, genres: String)
val movieRdd: RDD[Movie] = sc.textFile(***WHAT GOES HERE***).map(-formatting-)

1 个答案:

答案 0 :(得分:2)

您可以采用以下格式编码:

sc.textFile(hdfs://NamenodeIPAddress:Port/DirectoryLocation)

example: sc.textFile(hdfs://127.0.0.1:8020/user/movies)

请根据您的位置更改您的名称节点IP地址和路径的IP地址。

希望这有助于!!! ...