标签: c++ performance gcc assembly optimization
根据英特尔优化手册,数据(和指令)的对齐仍然对高性能计算至关重要。
我知道我们必须自己调整数据以避免错误共享(两个线程访问同一缓存行中的两个变量),因为编译器不可能知道我们的线程模型。
但是,GCC是否会执行任何其他路线/不进行哪些路线/我们必须自己做哪些路线以达到性能?