深度神经网络加速cuDNN&TensorRT

CPU: 延迟导向内核

  • 分支预测

  • 流水线前传

  • 计算密集

GPU: 吞吐导向内核

  • 没有分支预测

  • 没有数据转发

数据并行

Cuda (Compute Unified Device Architecture)

  • 无需复杂着色语言和图形处理原语

OpenCL (Open Computing Language)

  • 支持平台多

Cuda:

  • 线程处理器 SP 对应线程 thread

  • 多核处理器 SM 对应线程块 thread block

  • 设备端 device 对应线程块组合体 grid

Warp线程束

Practise

Kernel function __global__修饰