像 Intel Xeon-Phi 这样的协处理器应该像GPU一样使用,因此应该卸载执行单个内核的大量块,以便只有协处理器处理的整体吞吐量导致加速, OR 卸载独立线程(任务)也会提高效率?
答案 0 :(得分:2)
Xeon Phi需要很大程度的功能并行(不同线程)和矢量并行(SIMD)。由于内核基本上是增强型奔腾处理器,因此串行代码运行缓慢。这将与下一代有所改变,因为它将使用更快,更现代的核心。目前的Xeon Phi也遇到I / O瓶颈,任何协处理器都需要通过PCIe总线进行通信。
因此,虽然您可以将内核卸载到每个处理器并利用512位向量化(类似于GPGPU),但您也可以将代码分成许多不同的功能块(即不同的代码/内核)并在不同的处理器上运行它们多套Intel Xeon Phi核心。同样,不同的代码块也必须利用512位SIMD向量。
Xeon Phi也作为本机处理器运行,因此您可以通过使用TCP / IP,使用MPI等安装NFS目录树,卡与集群中的其他处理器之间的通信来访问其他资源。请注意,这不是& #39;卸载'但是原生执行。但PCIe总线仍然是限制I / O的重要瓶颈。
总结一下,