我想在Spark中使用Postgres(二进制或文本)转储文件并想知道如何导入它?我知道我们可以使用Sqoop将Postgres导入HDFS,并且我可以从Spark访问HDFS,但是如果我只有转储文件呢?我是否必须先将其恢复到Postgres数据库中?我不愿意。
答案 0 :(得分:2)
使用pg_restore --data-only -t my_table db.dump
你应该得到带有一些注释和一些额外命令的制表符分隔文本,过滤掉你不想要的所有内容并将该文件写入HDFS会很简单。
然后,将该文件作为Spark或MapReduce的CSV文件读取。