我制作一个简单的程序,使用矢量加法器,并希望测试执行时间与groupsize的比较。 当我将groupsize从1024更改为5012到256并更改为128.执行时间非常相似。为什么?在我看来,当我使用较小的分组时,我们应该有更多的组,它们可以并行工作在核心中,这可以减少执行时间(例如,如果workgroupsize从512变为256,执行时间应减少一半? )但是在我的gpu经验中,执行时间是短暂的?我的观点错了吗?
答案 0 :(得分:0)
因为每组的工作项数不是添加矢量的可见瓶颈。全局内存性能是瓶颈。如果数据来自主机,则pci-e性能也是瓶颈。