CUDAアーキテクチャにおける自然なメモリアライメントは 256 バイト。
CUDA提供のメモリ確保関数(cudaMalloc
等)は、少なくとも 256 バイト・アライメントされたアドレスを返す。
Size and Alignment Requirement
CUDA C++ Programming Guide, 5.3.2. Device Memory Accesses
(snip)
Any address of a variable residing in global memory or returned by one of the memory allocation routines from the driver or runtime API is always aligned to at least 256 bytes.
関連URL