深度神经网络加速cuDNN&TensorRT

  1. CPU: 延迟导向内核

    • 分支预测
    • 流水线前传
    • 计算密集
  2. GPU: 吞吐导向内核

    • 没有分支预测
    • 没有数据转发
    • 数据并行

  3. Cuda (Compute Unified Device Architecture)

    • 无需复杂着色语言和图形处理原语
  4. OpenCL (Open Computing Language)

    • 支持平台多
  5. Cuda:

    • 线程处理器 SP 对应线程 thread
    • 多核处理器 SM 对应线程块 thread block
    • 设备端 device 对应线程块组合体 grid
  6. Warp线程束

  7. Practise

    • Kernel function __global__修饰 <<<arg1, arg2>>>

留下评论

您的电子邮箱地址不会被公开。 必填项已用*标注