在GPU上运行OS内核级计算是否有意义?

时间:2011-03-09 06:26:23

标签: parallel-processing operating-system gpu

我注意到GPU可以拥有数百个内核,因此可以大大加快并行计算速度。似乎在OS内核中,没有并行算法用于加速。

人们在用户中使用OpenMP进行并行计算,但为什么不在内核空间呢?我想OS中有很多需要并行处理的任务,比如处理多个网络连接和数据包,进行加密操作,管理内存,搜索等等......有些防火墙通过匹配模式过滤和监控网络流量,研究型操作系统也可以在运行之前分析程序,这很费时并且可以并行化。

那么为什么操作系统不使用GPU来提高性能和吞吐量呢?在GPU上运行OS计算是否有意义?

4 个答案:

答案 0 :(得分:21)

GPU并行处理应用程序要求您运行完全相同的操作数百次。此外,您可以做的操作有限 - 分支通常不是一个选项,也不是遍历指针链。

大多数内核操作都不适合这个模型;内核正在做的很多事情是通过指针管理资源,包括锁定。这根本不适合GPU模型。至于您引用的其他操作:

  • 密码学:GPU非常适合尝试破解加密密码,但这不是内核的工作。它通常运行一次加密操作。在这种情况下,CPU要快得多,因为它只需要执行一次。
  • 处理网络流量:数据包在不同时间到达,需要以低延迟进行处理。 GPU 可能能够进行无状态防火墙处理,但是您需要批量处理数据包并让它一次运行几百个才能获得好处 - 这会伤害延迟和抖动,所以工作留给了CPU。此外,有状态跟踪需要对连接跟踪表进行共享,锁定访问,这是GPU无法实现的。
  • 管理内存:这是一个指针繁重的操作,有很多锁定,因此不是GPU甚至非常适合的东西。此外,延迟至关重要,将作业发送到GPU意味着很多延迟。
  • 搜索:现代操作系统内核不搜索。这对用户空间来说是一项工作 - 而且,这是一项非常重要的工作。

GPU非常适合数学内核,其中吞吐量是最重要的,延迟是一个小问题 - 数值模拟,这类事情。通常,它们不适合数据管理,或者延迟很关键 - 这正是OS内核所做的事情。这就是操作系统通常不使用GPU加速的原因。

OS内核可以并且确实可以使用其他类型的硬件加速 - 某些机器具有专门用于快速执行一次性加密计算的加密硬件核心。内核可以很好地利用它们,因为它们更适合于内核面临的特定问题。

答案 1 :(得分:4)

您对内核不并行化的印象是错误的。现代内核很好地适应了多核/多线程CPU,并且在这方面以“并行”的方式处理了几乎所有内容。

对于GPU,它们在从CPU处理的指令方面非常不同。更适合于矢量浮点计算。 Linux内核基本上从不使用这种操作。例外是密码和一些raid代码,可以很好地适应矢量型操作(可能还有其他操作,但仍然非常有限)。

因此,一般来说,内核本身并不需要GPU提供的那种操作。在它需要的时候,你会发现现代CPU核心包括特定的指令集(如SSE,AES-NI等)或专用的协处理器/卸载引擎(再次用于加密和raid计算,网络数据包校验等) ...)。

答案 2 :(得分:0)

  

现代GPU不仅可用于图形处理;他们也可以运行通用程序。虽然不太适合所有类型的程序,但它们在可以利用其高度并行性的代码方面表现出色。大多数使用所谓的“通用GPU'' (GPGPU)计算已超出系统软件的范围。但是,最近关于软件路由器和加密网络连接的工作已经举例说明了如何将GPGPU应用于传统上在操作系统领域内的任务。这些用途只是划伤表面。可以利用GPU的系统级任务的其他示例包括通用加密,模式匹配,程序分析和基本常用算法的加速。

引自https://code.google.com/p/kgpu/

答案 3 :(得分:-1)

是的,我同意Mat。今天计算世界的瓶颈是在虚拟线程上运行的操作系统。这在用户空间中创造了需求,用于创建使用GPU的应用程序。然而内核仍然按顺序运行操作系统。例如,搜索操作被集成为OS功能,它按顺序检查文件系统表,或者通过索引然后使用二进制搜索算法进行搜索。这两项操作都很耗时。为什么不将部分文件系统表发送到GPU并分叉搜索操作。在处理级别,大多数OS操作只是算术和逻辑计算,但这些操作等待CPU。这里涉及的问题是从CPU到GPU发送和接收操作/内存并返回CPU所涉及的延迟。需要进行大量研究以减少这种延迟。 但实际上这里的问题不是硬件延迟(在CPU和GPU之间),而是由OS估计这种延迟。操作系统必须估计延迟并决定CPU中的处理是否更好或GPU是否更好。这又是依赖于硬件平台的。可以解决和研究这些问题。它只需要对OS公司的研究投入巨大的资金。