Question

我正在尝试将表从redshift直接导出到我的本地计算机。我成功地从redshift获取了数据，但是它没有区分任何数据。当我执行pandas.dtypes时，它们都是作为对象出现的，而不是诸如字符串或日期时间戳之类的各种数据类型。我还想直接从导出中添加列的标题。

我已经从终端使用PSQL命令成功导出到本地，以访问redshift。

psql -h omaha-prod-cluster.example.us-east-1.redshift.amazonaws.com -d prod -U <username> -p 5439 -A -t -c "select * from l2_survey.survey_customerinsight" -F ',' -o Downloads/survey_customerInsights.csv

然后我正在运行panda命令以读取各种数据类型

data.dtypes()

，它返回具有对象数据类型的每一列。上面的psql命令也没有给我列的标题

Answer 1

您的命令存在问题，您explicitly要求export command通过提供参数-t来跳过列名，这告诉命令导出没有tuples名称的column。只需按如下所示进行更改，它将为您提供header。

psql -h <host-values>.redshift.amazonaws.com -U <user> -d <database> -p 5439 -c "select * from your_schema.your_table" > out.txt

希望它对您有帮助。

使用适当的变量类型将CSV文件从redshift导出到本地

1 个答案: