用于数据分析的特定Postgresql服务器配置

时间:2018-10-12 09:02:28

标签: postgresql database-performance data-science

如果您将Postgresql数据库专门用于数据科学部门和数据分析目的,是否有使用postgresql.conf文件调整服务器性能的技巧?还是性能调整本身是与目的无关的,并且您将对它进行任何操作都没有真正的区别,因为“一切都与提取数据有关”?

这是一个相当模糊的问题,我没有找到答案(在数不胜数的有关数据科学主题的文章中)。

2 个答案:

答案 0 :(得分:3)

尽管这是一个非常笼统的问题,但我会尽力为您提供一两个提示:

您可以首先评估您的需求概述,例如:

  • 我们在谈论大数据块吗? (缓冲区大小)
  • 从多少个客户端执行查询? (允许连接)
  • 您是否正在使用postgresql的内部功能?
  • 您是否需要永久备份或复制表或数据库?
  • 等..

我建议您阅读resource consumption上的官方文档以及query-planningserver configuration上的文档中的文章  一般来说。

如果您在阅读文档后仍无法得出正确的方法,我可以推荐pg-forum。经验丰富的用户“ akretschmer”是postgresql-pro,如果您以详细而有意义的方式提出问题,也许可以为您提供帮助;)

答案 1 :(得分:0)

我遇到了与OP相同的问题,我对此一无所获。我们的要求是仅由2位数据科学家访问数据,对其进行切片,进行探索等。这是我们当前的设置和配置

  • 数据:50亿行(约300GB)AWS cloudwatch 5分钟数据
  • 硬件:AWS EC2 t2.2xlarge(8核,32GB RAM,500GB gp2磁盘)
  • PostgreSQL版本10
  • /etc/postgresql/10/main/postgresql.conf
  • 的修改部分
work_mem = 25GB
maintenance_work_mem = 25GB

max_worker_processes = 8
max_parallel_workers = 8
max_parallel_workers_per_gather = 4

如果有人有其他建议,我会很高兴。

编辑:我将此作为问题发布在DBA stackexchange上,以寻求进一步的建议。