我有一个巨大的20GB CSV文件要复制到Hadoop / HDFS中。当然,我需要管理任何错误情况(如果服务器或传输/加载应用程序崩溃)。
在这种情况下,我需要重新启动处理(在另一个节点或不在另一个节点中)并继续传输而不从头开始启动CSV文件。
最好和最简单的方法是什么?
使用Flume? Sqoop?本机Java应用程序?火花?
非常感谢。
答案 0 :(得分:1)
如果文件不是在HDFS中托管,那么flume将无法并行化该文件(与Spark或其他基于Hadoop的框架相同)。你可以在NFS上安装HDFS然后使用文件复制吗?
使用flume读取的一个优点是读取文件并将每一行作为单独的记录发布并发布这些记录并让一次将一条记录写入HDFS,如果出现问题,您可以从该记录开始从头开始