深度神经网络加速cuDNN&TensorRT

CPU: 延迟导向内核
- 分支预测
- 流水线前传
- 计算密集
GPU: 吞吐导向内核
- 没有分支预测
- 没有数据转发
- 数据并行
Cuda (Compute Unified Device Architecture)
- 无需复杂着色语言和图形处理原语
OpenCL (Open Computing Language)
- 支持平台多
Cuda:
- 线程处理器 SP 对应线程 thread
- 多核处理器 SM 对应线程块 thread block
- 设备端 device 对应线程块组合体 grid
Warp线程束
Practise
- Kernel function __global__修饰 <<<arg1, arg2>>>

留下评论