-
CPU: 延迟导向内核
- 分支预测
- 流水线前传
- 计算密集
-
GPU: 吞吐导向内核
- 没有分支预测
- 没有数据转发
- 数据并行
-
Cuda (Compute Unified Device Architecture)
- 无需复杂着色语言和图形处理原语
-
OpenCL (Open Computing Language)
- 支持平台多
-
Cuda:
- 线程处理器 SP 对应线程 thread
- 多核处理器 SM 对应线程块 thread block
- 设备端 device 对应线程块组合体 grid
-
Warp线程束
-
Practise
- Kernel function
__global__
修饰 <<<arg1, arg2>>>
- Kernel function