将CSV文件导入Hadoop

时间:2015-12-14 21:49:37

标签: csv bigdata hadoop2

我是Hadoop的新手,我有一个文件可以通过命令行导入hadoop(我通过SSH访问机器)

如何在hadoop中导入文件? 我怎样才能检查(命令)?

2 个答案:

答案 0 :(得分:6)

导入csv文件的两个步骤

  1. 使用winscp或cyberduck将csv文件移至hadoop sanbox(/ home / username)。
  2. use -put命令用于将文件从本地位置移动到hdfs。

        hdfs dfs -put /home/username/file.csv /user/data/file.csv
    

答案 1 :(得分:0)

我们可以使用三个标志将数据从本地机器加载到 HDFS,

-copyFromLocal

我们使用此标志将数据从本地文件系统复制到 Hadoop 目录。

hdfs dfs –copyFromLocal /home/username/file.csv /user/data/file.csv

如果文件夹不是以 HDFS 或 root 用户身份创建的,我们可以创建文件夹:

hdfs dfs -mkdir /user/data

-put

正如@Sam 在上面的回答中提到的,我们还使用 -put 标志将数据从本地文件系统复制到 Hadoop 目录。

hdfs dfs -put /home/username/file.csv /user/data/file.csv

-moveFromLocal

我们还使用 -moveFromLocal 标志将数据从本地文件系统复制到 Hadoop 目录。但这将从本地目录中删除文件

hdfs dfs -moveFromLocal /home/username/file.csv /user/data/file.csv