cuda 编程学习：Grid-Block-Thread#

cuda的软件层级#

cuda的软件逻辑上包含Grid-Block-Thread三级结构，kernel可以理解为一次函数调用，生成一个Grid。

矩阵乘kernel为例编写cuda代码#

调用kernel时，实际上传入了kernel_name<<<grid,block>>>参数。如上图，grid参数控制了一个Grid有多少个Block，block参数控制了一个Block里需要多少Thread，这两个参数都是三维向量，如下方矩阵乘的kernel定义：

1
// 定义线程组织结构
2
// 每个 block 包含 BLOCK_SIZE x BLOCK_SIZE 个线程
3
dim3 block(THREAD_SIZE_X, THREAD_SIZE_Y, THREAD_SIZE_Z);
4
// grid 的维度，根据输出矩阵 C 的尺寸（M x N）确定
5
dim3 grid(grid_size_x, grid_size_y, grid_size_z);
6
// 启动 kernel
7
matrixMulKernel<<<grid, block>>>(A, B, C, M, N, K);

dim block也可以写成，Z方向默认为1

1
dim3 block(THREAD_SIZE_X, THREAD_SIZE_Y);

定义好维度之后，在kernel函数里面就可以通过变量拿到执行thread的信息：

1
int grid_x = gridDim.x; // grid 在x方向的线程块数量
2
int block_y = blockIdx.y;
3
int block_y_dim = blockDim.y; // block在y方向的线程数量
4
int thread_x = threadIdx.x;

如果我们要计算一个矩阵乘，可以这么写，注意B是转置后的矩阵，具有局部性，和数学上的不一样，这是一般矩阵乘编写时的习惯

1
__global__ void matrixMulKernel(const float * __restrict__ A, const float * __restrict__ B, float * __restrict__ C, int m, int n, int k) {
2
  // A[M][K]
3
  // B[N][K]
4
  // C[M][N]
5
    int i = blockIdx.y * blockDim.y + threadIdx.y;
6
    int j = blockIdx.x * blockDim.x + threadIdx.x;
7
    // 每个thread执行一行和一列的计算
8
    if (i < m && j < n) {
9
        float sum = 0.0f;
10
        for (int l = 0; l < k; l++) {
11
            sum += A[i * k + l] * B[j * k + l];
12
        }
13
        C[i * n + j] = sum;
14
    }
15
}

调用kernel前后的操作#

调用kernel之前需要做一些准备工作：申请内存，内存拷贝，定义grid和block大小

调用kernel后需要cudaDeviceSynchronize();等待结果，这是因为kernel的调用是异步提交的任务，完成后拷贝内存和释放device内存。

1
void sgemm_cuda(float *A, float *B, float *C, int m, int n, int k) {
2
    // 在设备端分配内存
3
    float *d_A, *d_B, *d_C;
4
    cudaMalloc(&d_A, M * K * sizeof(float));
5
    cudaMalloc(&d_B, K * N * sizeof(float));
6
    cudaMalloc(&d_C, M * N * sizeof(float));
7

8
    // 将数据从主机拷贝到设备
9
    cudaMemcpy(d_A, A, M * K * sizeof(float), cudaMemcpyHostToDevice);
10
    cudaMemcpy(d_B, B, K * N * sizeof(float), cudaMemcpyHostToDevice);
11

12
    // 定义线程组织结构
13
    // 每个 block 包含 BLOCK_SIZE x BLOCK_SIZE 个线程
14
    dim3 block(THREAD_SIZE, THREAD_SIZE);
15
    // grid 的维度，根据输出矩阵 C 的尺寸（M x N）确定
16
    dim3 grid((N + block.x - 1) / block.x, (M + block.y - 1) / block.y);
17

18
    // 启动 kernel，传入矩阵维度 m, n, k
19
    matrixMulKernel<<<grid, block>>>(d_A, d_B, d_C, M, N, K);
20

21
    // 等待 kernel 执行完成
22
    cudaDeviceSynchronize();
23

24
    // 将结果从设备拷贝回主机
25
    cudaMemcpy(C, d_C, M * N * sizeof(float), cudaMemcpyDeviceToHost);
26

27
    // 释放设备和主机内存
28
    cudaFree(d_A);
29
    cudaFree(d_B);
30
    cudaFree(d_C);
31
}

‍

cuda实际上的调度#

软件层级是编写kernel代码才会出现的，实际上GPU在计算时只有SM存在，可以理解为CPU的一个core，一个SM可以执行成百上千thread的执行。

GPU在调度kernel的时候，会保证一个Block内的thread被分配到同一个SM（SIMT）。

NVIDIA在调度时，32个thread是一个wrap，wrap才是SM调度和运行的基本单元，一次并行执行相同的指令，一个wrap占用一个SM运行，可以理解为CPU的一个线程。

这样一来，一个block内的thread如果很多，就会有多个wrap，假如是512，则有512/32=16个wrap，这16个wrap的运行是轮流进入SM的，由SM的硬件（wrap schedule）负责调度。

完整代码#

1
#include <stdio.h>
2
#include <stdlib.h>
3
#include <cuda_runtime.h>
4
#include <time.h>
5

6
#define M 1024           // 矩阵 A 的行数，矩阵 C 的行数
7
#define N 512           // 矩阵 B 的列数，矩阵 C 的列数
8
#define K 512           // 矩阵 A 的列数，同时也是矩阵 B 的行数
9
#define BLOCK_SIZE 16
10
#define THREAD_SIZE 16
11

12
int64_t get_current_time_ns() {
13
    struct timespec ts;
14
    clock_gettime(CLOCK_MONOTONIC, &ts);
15
    return ts.tv_sec * 1000000000 + ts.tv_nsec;
16
}
17

18

19
__global__ void matrixMulKernel(const float * __restrict__ A, const float * __restrict__ B, float * __restrict__ C, int m, int n, int k) {
20
    int i = blockIdx.y * blockDim.y + threadIdx.y;
21
    int j = blockIdx.x * blockDim.x + threadIdx.x;
22
    // 每个thread执行一行和一列的计算
23
    if (i < m && j < n) {
24
        float sum = 0.0f;
25
        for (int l = 0; l < k; l++) {
26
            sum += A[i * k + l] * B[j * k + l];
27
        }
28
        C[i * n + j] = sum;
29
    }
30
}
31

32
void sgemm_cpu(const float * __restrict__ A, const float * __restrict__ B, float * __restrict__ C, int m, int n, int k) {
33
    for (int i = 0; i < m; i++) {
34
        for (int j = 0; j < n; j++) {
35
            float sum = 0.0f;
36
            for (int l = 0; l < k; l++) {
37
                sum += A[i * k + l] * B[j * k + l];
38
            }
39
            C[i * n + j] = sum;
40
        }
41
    }
42
}
43

44
void sgemm_cuda(float *A, float *B, float *C, int m, int n, int k) {
45
    // 在设备端分配内存
46
    float *d_A, *d_B, *d_C;
47
    cudaMalloc(&d_A, M * K * sizeof(float));
48
    cudaMalloc(&d_B, K * N * sizeof(float));
49
    cudaMalloc(&d_C, M * N * sizeof(float));
50

51
    // 将数据从主机拷贝到设备
52
    cudaMemcpy(d_A, A, M * K * sizeof(float), cudaMemcpyHostToDevice);
53
    cudaMemcpy(d_B, B, K * N * sizeof(float), cudaMemcpyHostToDevice);
54

55
    // 定义线程组织结构
56
    // 每个 block 包含 BLOCK_SIZE x BLOCK_SIZE 个线程
57
    dim3 block(THREAD_SIZE, THREAD_SIZE);
58
    // grid 的维度，根据输出矩阵 C 的尺寸（M x N）确定
59
    dim3 grid((N + block.x - 1) / block.x, (M + block.y - 1) / block.y);
60

61
    // 启动 kernel，传入矩阵维度 m, n, k
62
    matrixMulKernel<<<grid, block>>>(d_A, d_B, d_C, M, N, K);
63

64
    // 等待 kernel 执行完成
65
    cudaDeviceSynchronize();
66

67
    // 将结果从设备拷贝回主机
68
    cudaMemcpy(C, d_C, M * N * sizeof(float), cudaMemcpyDeviceToHost);
69

70
    // 释放设备和主机内存
71
    cudaFree(d_A);
72
    cudaFree(d_B);
73
    cudaFree(d_C);
74
}
75

76
int main() {
77
    // C = A * B, 注意B的存储模式并非常规的行优先，而是列优先（转置），这是为了局部性
78
    // A[M][K], B[N][K], C[M][N]
79
    float *A = (float*)malloc(M * K * sizeof(float));
80
    float *B = (float*)malloc(K * N * sizeof(float));
81
    float *C = (float*)malloc(M * N * sizeof(float));
82

83
    // 初始化矩阵 A 和 B
84
    for (int i = 0; i < M * K; i++) {
85
        A[i] = (float)rand() / RAND_MAX;
86
    }
87
    for (int i = 0; i < K * N; i++) {
88
        B[i] = (float)rand() / RAND_MAX;
89
    }
90
    for (int i = 0; i < M * N; i++) {
91
        C[i] = 0.0f;
92
    }
93

94
    int64_t start_time = get_current_time_ns();
95
    sgemm_cpu(A, B, C, M, N, K);
96
    int64_t end_time = get_current_time_ns();
97
    printf("sgemm_cpu time: %ld ns = %f ms\n", end_time - start_time, (end_time - start_time) / 1000000.0);
98

99
    start_time = get_current_time_ns();
100
    sgemm_cuda(A, B, C, M, N, K);
101
    end_time = get_current_time_ns();
102
    printf("sgemm_cuda time: %ld ns = %f ms\n", end_time - start_time, (end_time - start_time) / 1000000.0);
103
}

音乐