Curio

深度神经网络加速cuDNN&TensorRT

深度神经网络加速cuDNN&TensorRT

CPU: 延迟导向内核

分支预测
流水线前传
计算密集

GPU: 吞吐导向内核

没有分支预测
没有数据转发

数据并行

Cuda (Compute Unified Device Architecture)

无需复杂着色语言和图形处理原语

OpenCL (Open Computing Language)

支持平台多

Cuda:

线程处理器 SP 对应线程 thread
多核处理器 SM 对应线程块 thread block
设备端 device 对应线程块组合体 grid

Warp线程束

Practise

Kernel function __global__修饰