有一个标准的,跨步的memcpy版本?

时间:2011-05-16 06:15:57

标签: c memcpy stride

我有一个列向量A,长度为10个元素。我有一个10乘10的矩阵B.B的内存存储是列专业。我想用列向量A覆盖B中的第一个

显然,我可以这样做:

for ( int i=0; i < 10; i++ )
{
    B[0 + 10 * i] = A[i];
}

我在0 + 10 * i中留下零以突出显示B使用列主存储(零是行索引)。

今晚在CUDA-land的一些恶作剧之后,我想到可能有一个CPU功能来执行一个跨步的memcpy?我想在低级别,性能将取决于是否存在一个跨步加载/存储指令,我不记得在x86汇编中有哪些?

1 个答案:

答案 0 :(得分:8)

简短的回答:你写的代码和它的代码一样快。

长答案:memcpy函数是使用一些复杂的内在函数或汇编编写的,因为它对具有任意大小和对齐的内存操作数进行操作。如果你要覆盖矩阵的一列,那么你的操作数就会自然对齐,你不需要采用相同的技巧来获得合适的速度。