CUDA
CUDAアーキテクチャにおける自然なメモリアライメントは 256 バイト。CUDA提供のメモリ確保関数(cudaMalloc等)は、少なくとも 256 バイト・アライメントされたアドレスを返す。 Size and Alignment Requirement (snip) Any address of a variable residing…
CUDAメモリ転送系関数の Async サフィックス有無*1と、実際の同期(synchronous)/非同期(asynchronous)動作は1:1対応しない。Asyncサフィックス無しメモリ転送関数でも、条件によっては非同期動作となる可能性がある。 API synchronization behavior The API…