我们有一个应用程序,需要大约1MB缓冲区才能填充硬件设备,因此我们编写了一个内核模块,使用kmalloc()分配缓冲区。我们没有使用dma_alloc_coherent(),因为我们需要操纵缓冲区,因此希望它们被缓存(我们在需要时刷新缓存)。其中一个操作是内核模块将一个缓冲区复制到另一个缓冲区。在计时这些副本时,我们看到复制缓冲区需要大约2ms。该时间不包括任何缓存刷新。
由于这似乎很慢,我们编写了一个标准的用户空间测试应用程序,它使用malloc()创建1MB缓冲区并复制它们。用户空间副本大约需要0.5毫秒,这大约是在我们正在使用的处理器/内存配置上移动此内存量的正确时间。
认为我们尝试过:为了确保它在内核空间和用户空间中不是一个不同的memcpy(),我们编写了自己的NEON优化副本,但没有任何区别。将缓冲区大小从100KB更改为10MB并没有任何区别。所有时间都超过10份,但始终非常一致。时间例程在用户空间中使用gettimeofday()。
我们唯一可以想到的是,对于kmalloc()'ed memory然后malloc()'ed memory ???,数据缓存设置不同
我们正在开发iMX6 ARM,Linaro kerne。
答案 0 :(得分:1)
kmalloc()
内存在物理空间中是连续的。用户空间肯定不会(mlock()
可能导致更接近连续)。如果您有多个SDRAM芯片,则您的内存控制器可能允许流水线或多个问题同时读取/写入不同的芯片。多个银行甚至可能更快。 vmalloc()
不会使用连续的网页。 Ref 您应该可以编写一个测试来与kmalloc()
交换vmalloc()
。如果较新的ARM发生了某些变化,并且缓存不是VIVT,则物理地址的差异可能会导致某些处理器出现缓存(别名?)影响。
我认为内核内存与用户内存的缓存设置不同;至少有2.6.34个变种;但他们可能来自不同的游泳池。此外,对于memcpy()
,不需要大缓存;你需要足够的东西来确保SDRAM爆发。
另一个问题是外围设备。例如,一个芯片上的大型图形缓冲区可能会通过DMA窃取周期。如果您可以更改计算机文件或设备表以禁用尽可能多的驱动程序,则可以取消此操作。这与流水线相结合可以解释所观察到的减速类型。
我认为这是一个平台问题。如果它是严格的Linux,我认为数百万用户中的一个可能遇到过它。但是,您尚未提供特定版本的Linux。它可能是一个基于ARM的问题;所以我标记了它。我认为这是你的平台/ ARM组合;仅仅因为其他人会观察到这一点您是否还可以提供您的设计所基于的特定机器文件或设备表以及Linux版本。