我有一些关于NVIDIA的背景知识,所以要学习英特尔的OpenCL,我想关联一下。
对于Nvidia,我们有以下规则:
1-翘曲尺寸:32(或在某些情况下为64)
2-最大数量每个多处理器的常驻块数:8
3-最大数量可以驻留在多处理器上的线程:768(在较旧的卡中)
4-每个工作组可用的共享内存量:64 KB(48 + 16 KB)
5-每个工作组的线程数:512(最新卡上为1024)
6-工作组仅在单个多处理器上运行,即MP#1的一半和MP#2的另一半,不可能。
我想知道英特尔高清显卡的这些值。
如果有人能指出一些我可以就此进行自我教育的链接,我将非常感激。
我在哪里可以获得英特尔高清显卡的信息?具体来说,我有英特尔NUC与Celeron N2820 SoC
答案 0 :(得分:0)
我喜欢使用CLInfo来转储有关硬件的详细信息。尝试找到预编译的二进制文件,或查找源代码。
此链接看起来很有希望:http://graphics.stanford.edu/~yoel/notes/clInfo.c
答案 1 :(得分:0)
英特尔已于2014年4月在英特尔信息技术峰会上发布了OpenCL capabilities of Intel Iris Graphics上的幻灯片。还有The Compute Architecture of Intel® Processor Graphics Gen7.5,其中包含大量信息。在这两者之间,大多数问题都有答案。然而,由于英特尔将OpenCL映射到其架构的方式不同,有时并不直接模拟NVIDIA概念。
英特尔根据每个中使用的执行单元(EU)的数量来表征其不同的图形SKU。幻灯片中引用的英特尔Iris图形有40个EU。对于您的情况,Developer’s Guide for Intel® Processor Graphics For 4th Generation Intel® Core™ Processors表明英特尔高清显卡有20个欧盟。您询问多处理器 - 英特尔等效物是一个"子片段",它是一组10个EU。因此,您使用的英特尔高清显卡有2个子画面。
通过这一切,我们可以得出你正在寻找的一些答案......
1-翘曲尺寸:不清楚英特尔高清显卡如何模拟这一概念。这SO thread on querying preferred SIMD width可能会有所帮助。
2-最大数量每个多处理器/子片段的驻留块的数量:英特尔仅声明这受到每个子片段使用16个屏障寄存器的限制。可能是70。
3-最大数量可以驻留在Multiprocessor / subslice上的线程:70。
4-每个工作组可用的共享内存量:每个工作组没有应答,但每个子片有64KB共享本地内存+ 128KB L3缓存。
5-每个工作组的线程数:未说明。下一个问题的答案意味着这个数字可能与2个下属可运行的最大线程数一样高:140。
6-工作组仅在单个多处理器/子片上运行:在某些条件下,英特尔高清显卡可以提供更多功能。来自Compute Architecture reference:
对于不依赖于硬件障碍的计算工作负载 在共享本地内存时,线程调度全局可以选择 在所有可用切片上分配工作负载...用于计算 确实依赖于硬件障碍或共享本地的工作负载 内存,线程调度全局将分配工作组(又名 线程组大小的工作负载部分到特定的子对象。