Question

我对数据库管理的概念不熟悉，所以我没有任何基础可以期待。我正在以五个不同的表格的形式处理大约100GB的数据。可以找到数据的描述以及每个文件的前几行here。

我目前正在使用flows表来衡量效果。以下是\d flows的结果：

            Table "public.flows"
   Column   |       Type        | Modifiers 
------------+-------------------+-----------
 time       | real              | 
 duration   | real              | 
 src_comp   | character varying | 
 src_port   | character varying | 
 dest_comp  | character varying | 
 dest_port  | character varying | 
 protocol   | character varying | 
 pkt_count  | real              | 
 byte_count | real              | 
Indexes:
    "flows_dest_comp_idx" btree (dest_comp)
    "flows_dest_port_idx" btree (dest_port)
    "flows_protocol_idx" btree (protocol)
    "flows_src_comp_idx" btree (src_comp)
    "flows_src_port_idx" btree (src_port)

以下是EXPLAIN ANALYZE SELECT src_comp, COUNT(DISTINCT dest_comp) FROM flows GROUP BY src_comp;的结果，我认为这是一个相对简单的查询：

 GroupAggregate  (cost=34749736.06..35724568.62 rows=200 width=64) (actual time=1292299.166..1621191.771 rows=11154 loops=1)
   Group Key: src_comp
   ->  Sort  (cost=34749736.06..35074679.58 rows=129977408 width=64) (actual time=1290923.435..1425515.812 rows=129977412 loops=1)
         Sort Key: src_comp
         Sort Method: external merge  Disk: 2819360kB
         ->  Seq Scan on flows  (cost=0.00..2572344.08 rows=129977408 width=64) (actual time=26.842..488541.987 rows=129977412 loops=1)
 Planning time: 6.575 ms
 Execution time: 1636290.138 ms
(8 rows)

如果我正确地解释了这个（我可能不是因为我是PSQL的新手），它说我的查询将花费将近30分钟来执行，这比我预期的要长得多。即使有大约1.3亿行。

我的电脑运行的是第8代i7四核CPU，16GB内存和2TB硬盘（可以找到完整规格here）。

我的问题是：1）这是预期的性能，2）除了购买外置SSD之外，还有什么办法可以加快速度吗？

Answer 1

1 - 查询使用的src_comp和dest_comp都被编入索引。但是，它们是独立索引的。如果您的索引为＆s; src_comp，则dest_comp＆＃39;那么数据库有可能通过索引处理这一切，从而消除了全表扫描。

2 - src_comp和dest_comp是变化的字符。除非必要，否则对于索引字段来说这不是一件好事。这些价值观到底是什么？数字？ IP地址？电脑网络名称？如果这些项目的数量相对有限，并且可以在将它们添加到数据库时将其标识，请将它们更改为用作其他表中的外键的整数。这将在此查询中产生巨大差异。如果它们不能以这种方式存储，但它们至少具有一定的有限长度 - 例如，对于IPv4地址采用点分四格式的15个字符 - 然后设置字段的最大长度，这应该有所帮助。

我的PSQL数据库性能是否符合我的硬件预期？

1 个答案: