这里有没有人使用过sqoop和hp vertica?
我正在尝试将数据从sqoop导出到vertica,我发现性能非常差。
我可以切换到HP vertica连接器...但我仍然想知道为什么sqoop在将数据导出到vertica时工作得那么慢。
我还发现在插入数据时,sqoop不支持针对vertica的upsert。我想知道这个问题是否会很快得到解决?
sqoop export -Dsqoop.export.records.per.statement=1 --driver
com.vertica.jdbc.Driver --mysql-delimiters --username **** --password **** --
connect jdbc:vertica://hostname/schema?ConnectionLoadBalance=1 --export-dir <hdfs-
data-dir> --table <table_name>
其中一个问题是sqoop如果强制我们将Vertica的sqoop.export.records.per.statement
设置为1。否则会抛出错误。
答案 0 :(得分:0)
我从未使用过sqoop,但是vertica中的命令行数据导入功能使用了COPY功能;基本上它会生成一个临时文件,然后在后台运行文件导入。它不是一个优雅的解决方案,但您可以尝试将数据转储到gzip,然后直接运行COPY函数。我发现gzip总是超过某个阈值(~50Mb +)的文件的瓶颈,而不是COPY。可以成为更快导入的后门。
答案 1 :(得分:0)
我使用vertica数据库工作sqoop,我使用sqoop将数据从vertica导出到hive / HDFS并且它工作,你需要将vertica jar添加到sqoop文件夹。 当我想在HDFS / Hive中使用数据的asq vertica时我使用了vertica的hcatalog。在版本8.1。*它附带vertica数据库,你不需要更多的连接器。