我想直接在AWS S3中生成TPC-DS数据(1 TB和10 TB),而无需从本地计算机传输到s3。最简单的方法是什么?
答案 0 :(得分:1)
我几个月前做了类似的工作,hive-testbench是一个选择。
检查README.md
的实现方法。
您需要在fs.defaultFS
中将$HADOOP_HOME/etc/hadoop/core-site.xml
配置到您的AWS S3存储桶,数据将直接在AWS中生成。
将数据比例参数传递给./tpcds-setup.sh
以生成不同比例的日期。