東方算程譚

επιστημηがヨタをこく、弾幕とは無縁のCUDAなタワゴト

2016-10-19から1日間の記事一覧

Zero Copy

CUDA C Best Practices Guide 9.1.3 に Zero Copy てのが出てきます...なにコレ? ってんで調べてみました。 サンプル: float列の各要素に対し、その平方根をを求める処理を書きました: #include <cuda_runtime.h> #include <device_launch_parameters.h> // out[i] = √in[i] where i = 0..size-1 __global</device_launch_parameters.h></cuda_runtime.h>…

後付けピン留め

cudaMallocHostを使ってピン留めされたHost-memoryを確保すればcudaMemcpyのスキマを潰すことができ、その分速くなる(てかそうしないと複数streamでのoverlapができん)のですが、あらかじめ(mallocやnewで)確保された領域を後付けでピン留め...できるんです…